• Aucun résultat trouvé

Apprentissage, Classi…cation & Prévision

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage, Classi…cation & Prévision"

Copied!
69
0
0

Texte intégral

(1)

Apprentissage, Classi…cation & Prévision

David Nerini

COM

premier semestre

David Nerini (COM) Cours M2, 2008-2009 premier semestre 1 / 27

(2)

Motivation

La description analytique de tous les processus existants et qui interagissent dans le milieu naturel est une tâche impossible. La construction de modèles mathématiques cohérents, à but explicatif, doit être e¤ectuée sous des hypothèses souvent loin de la réalité.

Cependant, leur élaboration est indispensable puisqu’ils doivent permettre de mieuxcomprendre et d’expliquer le fonctionnement des écosystèmes.

Une des grandes tâches en statistiques consiste àdécrire le fonctionnement d’un système à partir de l’observation de variables échantillonnées sur un grand nombre d’individus. L’objectif n’est pas d’étudier les processus qui interagissent dans le système mais de prévoir ou d’anticiper des modi…cations devariables cibles liées de manière complexe avec desvariables exogènes.

expliquer 6=predire´

(3)

Motivation

La description analytique de tous les processus existants et qui interagissent dans le milieu naturel est une tâche impossible. La construction de modèles mathématiques cohérents, à but explicatif, doit être e¤ectuée sous des hypothèses souvent loin de la réalité.

Cependant, leur élaboration est indispensable puisqu’ils doivent permettre de mieuxcomprendre et d’expliquer le fonctionnement des écosystèmes.

Une des grandes tâches en statistiques consiste àdécrire le fonctionnement d’un système à partir de l’observation de variables échantillonnées sur un grand nombre d’individus. L’objectif n’est pas d’étudier les processus qui interagissent dans le système mais de prévoir ou d’anticiper des modi…cations devariables cibles liées de manière complexe avec desvariables exogènes.

expliquer 6=predire´

David Nerini (COM) Cours M2, 2008-2009 premier semestre 2 / 27

(4)

Motivation

La description analytique de tous les processus existants et qui interagissent dans le milieu naturel est une tâche impossible. La construction de modèles mathématiques cohérents, à but explicatif, doit être e¤ectuée sous des hypothèses souvent loin de la réalité.

Cependant, leur élaboration est indispensable puisqu’ils doivent permettre de mieuxcomprendre et d’expliquer le fonctionnement des écosystèmes.

Une des grandes tâches en statistiques consiste àdécrire le fonctionnement d’un système à partir de l’observation de variables échantillonnées sur un grand nombre d’individus. L’objectif n’est pas d’étudier les processus qui interagissent dans le système mais de prévoir ou d’anticiper des modi…cations devariables cibles liées de manière complexe avec desvariables exogènes.

expliquer 6=predire´

(5)

Position du problème

On dispose d’un échantillonE =f(yi,xi),i =1, ...,ngd’une variable à prédire Y et de variables de prévisions ouexplicatives

X= (X1, ...,Xp)0. Cet échantillon doit être représentatif de la

population dans laquelle il a été prelevé. Cela veut dire que si sa taille n tend vers l’in…ni, les caractéristiques des variables échantillonnées se rapprochent de celles de leur distribution théorique.

On cherche à construire unmodèle statistique de la forme y =fθ(x) +ε

oùfθ est une fonction qui décrit les relations liant la variabley auxxj. Sa forme peut appartenir à une famille paramétrique ou ne pas être connue. La détermination defθ, directement ou par l’intermédiaire des paramètres θ, est e¤ectuée en minimisant la norme des erreurs ε.

David Nerini (COM) Cours M2, 2008-2009 premier semestre 3 / 27

(6)

Position du problème

On dispose d’un échantillonE =f(yi,xi),i =1, ...,ngd’une variable à prédire Y et de variables de prévisions ouexplicatives

X= (X1, ...,Xp)0. Cet échantillon doit être représentatif de la

population dans laquelle il a été prelevé. Cela veut dire que si sa taille n tend vers l’in…ni, les caractéristiques des variables échantillonnées se rapprochent de celles de leur distribution théorique.

On cherche à construire unmodèle statistique de la forme y =fθ(x) +ε

oùfθ est une fonction qui décrit les relations liant la variabley aux xj. Sa forme peut appartenir à une famille paramétrique ou ne pas être connue. La détermination defθ, directement ou par l’intermédiaire des paramètres θ, est e¤ectuée en minimisant la norme des erreurs ε.

(7)

Position du problème

De…nition

On appelle Apprentissage Machine (Machine Learning) l’ensemble des méthodes statistiques relatives à l’étude des propriétés de E, de l’estimation de fθ et de son utilisation pour e¤ectuer des prévisions.

Les techniques mathématiques utilisées pour la construction des modèles et la prévision utilisent énormément de données.

L’étude de leurs propriétés et leur utilisation dans un cadre

opérationnel sont souvent basées sur des algorithmes informatiques particuliers (Machine Learning)

Le choix des méthodes repose essentiellement sur le type de données avec lesquelles l’écologue travaille.

David Nerini (COM) Cours M2, 2008-2009 premier semestre 4 / 27

(8)

Position du problème

De…nition

On appelle Apprentissage Machine (Machine Learning) l’ensemble des méthodes statistiques relatives à l’étude des propriétés de E, de l’estimation de fθ et de son utilisation pour e¤ectuer des prévisions.

Les techniques mathématiques utilisées pour la construction des modèles et la prévision utilisent énormément de données.

L’étude de leurs propriétés et leur utilisation dans un cadre

opérationnel sont souvent basées sur des algorithmes informatiques particuliers (Machine Learning)

Le choix des méthodes repose essentiellement sur le type de données avec lesquelles l’écologue travaille.

(9)

Position du problème

De…nition

On appelle Apprentissage Machine (Machine Learning) l’ensemble des méthodes statistiques relatives à l’étude des propriétés de E, de l’estimation de fθ et de son utilisation pour e¤ectuer des prévisions.

Les techniques mathématiques utilisées pour la construction des modèles et la prévision utilisent énormément de données.

L’étude de leurs propriétés et leur utilisation dans un cadre

opérationnel sont souvent basées sur des algorithmes informatiques particuliers (Machine Learning)

Le choix des méthodes repose essentiellement sur le type de données avec lesquelles l’écologue travaille.

David Nerini (COM) Cours M2, 2008-2009 premier semestre 4 / 27

(10)

Exemples : Y et X réels

Example

Régression linéaire multiple y =ax1+bx2+cx1x2+ε

On cherche àestimer un modèle à partir de données qui s’ajuste au mieux à unmodèle théorique, supposé existant.

(11)

Exemples : Y et X réels

Example

Régression polynômialey =ax +bx2+ε

La forme du modèle dépend des caractéristiques des variables étudiées même si la problématique est identique au cas précédent.

David Nerini (COM) Cours M2, 2008-2009 premier semestre 6 / 27

(12)

Exemples : Y et X réels

Example

Régression non-paramétrique y =f (x) +ε

L’estimation de la fonction est directement réalisée à l’aide des données sans passer par une estimation de paramètres

(13)

Estimation des MC

Dans les trois cas précédents, l’estimation defθ est e¤ectuée par moindres carrés à l’aide de l’échantillon d’apprentissage E. On cherche en fait à minimiser la norme des erreursε

kεk2 =RSS(fθ) =

n i=1

K(xi) (yi fθ(xi))2

La forme de la fonction poids K(xi) dépend de la méthode employée La méthode des MC est à la base de la construction de la plupart des modèles

David Nerini (COM) Cours M2, 2008-2009 premier semestre 8 / 27

(14)

Estimation des MC

Dans les trois cas précédents, l’estimation defθ est e¤ectuée par moindres carrés à l’aide de l’échantillon d’apprentissage E. On cherche en fait à minimiser la norme des erreursε

kεk2 =RSS(fθ) =

n i=1

K(xi) (yi fθ(xi))2

La forme de la fonction poids K(xi) dépend de la méthode employée

La méthode des MC est à la base de la construction de la plupart des modèles

(15)

Estimation des MC

Dans les trois cas précédents, l’estimation defθ est e¤ectuée par moindres carrés à l’aide de l’échantillon d’apprentissage E. On cherche en fait à minimiser la norme des erreursε

kεk2 =RSS(fθ) =

n i=1

K(xi) (yi fθ(xi))2

La forme de la fonction poids K(xi) dépend de la méthode employée La méthode des MC est à la base de la construction de la plupart des modèles

David Nerini (COM) Cours M2, 2008-2009 premier semestre 8 / 27

(16)

Exemples : Y catégorielle et X quelconques

ooo o o

oooooooo o o

oooooo

oooo oo ooo

o o o o o

ooooo

o ooo ooo o

o o

ooo

o oooooo

ooo o o

ooo o o

ooooo ooo o o

oooo o

oooo o

oo oo o

ooooo

oo oo o

ooooo

oooo o

o ooooooooo ooooo

oooo o

oo

oo o

oo

o o

o

oooo o

ooo o o

oooo o

oooo o

oooo ooooo o

ooooo

oooo o

oooo o

oooo o

oooo o

oooo ooooo o

oooo o

ooo o o

oooo o

ooo o o

oooo o

oooo o

oooo o

oooo o

1m 2m 3m 4m 5m 6m 7m 8m

5 10 15 20 25 30 35 Salinity

Depth

On construit unevariable qualitative Y 2 fe1, ...,emgqui décrit les états hydrologiques de l’étang

Prévision des conditions hydrologiques qualitatives en fonction d’un forçage externe (vent et débits)

(17)

Exemples : Y catégorielle et X quelconques

ooo o o

oooooooo o o

oooooo

oooo oo ooo

o o o o o

ooooo

o ooo ooo o

o o

ooo

o oooooo

ooo o o

ooo o o

ooooo ooo o o

oooo o

oooo o

oo oo o

ooooo

oo oo o

ooooo

oooo o

o ooooooooo ooooo

oooo o

oo

oo o

oo

o o

o

oooo o

ooo o o

oooo o

oooo o

oooo ooooo o

ooooo

oooo o

oooo o

oooo o

oooo o

oooo ooooo o

oooo o

ooo o o

oooo o

ooo o o

oooo o

oooo o

oooo o

oooo o

1m 2m 3m 4m 5m 6m 7m 8m

5 10 15 20 25 30 35 Salinity

Depth

On construit unevariable qualitative Y 2 fe1, ...,emgqui décrit les états hydrologiques de l’étang

Prévision des conditions hydrologiques qualitatives en fonction d’un forçage externe (vent et débits)

David Nerini (COM) Cours M2, 2008-2009 premier semestre 9 / 27

(18)

Exemples : Y catégorielle et X quelconques

Example (Arbre de classi…cation)

y =fL(x) =

q j=1

cjI(X2rj)

La classe cj est celle qui a la probabilité maximale dans un noeud terminal donné

(19)

Exemples : Y catégorielle et X quelconques

Example (Arbre de classi…cation)

y =fL(x) =

q j=1

cjI(X2rj)

La classe cj est celle qui a la probabilité maximale dans un noeud terminal donné

David Nerini (COM) Cours M2, 2008-2009 premier semestre 10 / 27

(20)

Exemples : Y fonctionnelle et X quelconques

Prévision du spectre de taille du zooplancton en fonction de variables environnementales

(21)

Exemples : Y fonctionnelle et X quelconques

Example (Arbre de régression)

le modèle est de la forme y =fL(x) =E(Y/X=x) =

q j=1

fjI(X2rj)

David Nerini (COM) Cours M2, 2008-2009 premier semestre 12 / 27

(22)

Exemples : Y catégorielle et X fonctionnelle bivariée

Example (location and shape)

1 mm ventral face

rostrum nucleus

dorsal face anti- rostrum post-

rostrum

right otolith ofMullus Barbatus

a small piece of calcium carbonate located in the head of Teleostean

…shes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

(23)

Exemples : Y catégorielle et X fonctionnelle bivariée

Example (location and shape)

1 mm ventral face

rostrum nucleus

dorsal face anti- rostrum post-

rostrum

right otolith ofMullus Barbatus

a small piece of calcium carbonate located in the head of Teleostean

…shes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

David Nerini (COM) Cours M2, 2008-2009 premier semestre 13 / 27

(24)

Exemples : Y catégorielle et X fonctionnelle bivariée

Example (location and shape)

1 mm ventral face

rostrum nucleus

dorsal face anti- rostrum post-

rostrum

right otolith ofMullus Barbatus

a small piece of calcium carbonate located in the head of Teleostean

…shes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

(25)

Exemples : Y catégorielle et X fonctionnelle bivariée

Example (location and shape)

1 mm ventral face

rostrum nucleus

dorsal face anti- rostrum post-

rostrum

right otolith ofMullus Barbatus

a small piece of calcium carbonate located in the head of Teleostean

…shes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs

sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

David Nerini (COM) Cours M2, 2008-2009 premier semestre 13 / 27

(26)

Exemples : Y catégorielle et X fonctionnelle bivariée

Example (location and shape)

1 mm ventral face

rostrum nucleus

dorsal face anti- rostrum post-

rostrum

right otolith ofMullus Barbatus

a small piece of calcium carbonate located in the head of Teleostean

…shes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

(27)

Exemples : Y catégorielle et X fonctionnelle bivariée

Example (location and shape)

1 mm ventral face

rostrum nucleus

dorsal face anti- rostrum post-

rostrum

right otolith ofMullus Barbatus

a small piece of calcium carbonate located in the head of Teleostean

…shes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

David Nerini (COM) Cours M2, 2008-2009 premier semestre 13 / 27

(28)

Exemples : Y catégorielle et X fonctionnelle bivariée

Example (location and shape)

1 mm ventral face

rostrum nucleus

dorsal face anti- rostrum post-

rostrum

right otolith ofMullus Barbatus

a small piece of calcium carbonate located in the head of Teleostean

…shes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

(29)

Exemples : Y catégorielle et X fonctionnelle bivariée

Example (location and shape)

1 mm ventral face

rostrum nucleus

dorsal face anti- rostrum post-

rostrum

right otolith ofMullus Barbatus

a small piece of calcium carbonate located in the head of Teleostean

…shes

acceleration perception and sense of balance

tridimensional perception and aid in hearing functions

3 pairs sagitta pair

the biggest one

grows from the date of hatch to the time of death

growth starts fromnucleus

David Nerini (COM) Cours M2, 2008-2009 premier semestre 13 / 27

(30)

What bring otolith studies ?

Fish stocks, populations and species can be studied through the size, composition and shape of their otoliths

Chemical composition and shape provide informations about …sh environment (temperature, migration pathways) and dietary pattern Lateral section shows daily growth rings that record age and growth patterns

Example (Otolith and tree rings)

(31)

Shape analysis

We aim to compare shape of a collection of Mullus barbatus otoliths

objective: discriminate individuals belonging to same species but sampled at di¤erent places

Example (Sampling location & Mullus barbatus)

Aegean sea Black

Mediterranean sea sea

EUROPE

David Nerini (COM) Cours M2, 2008-2009 premier semestre 15 / 27

(32)

Shape analysis

We aim to compare shape of a collection of Mullus barbatus otoliths objective: discriminate individuals belonging to same species but sampled at di¤erent places

Example (Sampling location & Mullus barbatus)

Aegean sea Black

Mediterranean sea sea

EUROPE

(33)

Shape analysis

We aim to compare shape of a collection of Mullus barbatus otoliths objective: discriminate individuals belonging to same species but sampled at di¤erent places

Example (Sampling location & Mullus barbatus)

Aegean sea Black

Mediterranean sea sea

EUROPE

David Nerini (COM) Cours M2, 2008-2009 premier semestre 15 / 27

(34)

Exemples : Y catégorielle et X fonctionnelle bivariée

-400 0 200 400

-400-2000200400

x

y

0.0 0.2 0.4 0.6 0.8 1.0

-400-2000200400

time

x

0.0 0.2 0.4 0.6 0.8 1.0

-400-2000200400

time

y

Problème de recalage (analyse Procuste), objets bidimensionnels Peut-on utiliser leurs formes pour connaître leur provenance ?

(35)

Exemples : Y catégorielle et X fonctionnelle bivariée

Example (Analyse Discriminante)

Séparer au mieux lesk classes a priori sur l’ensemble des individus échantillonnés à partir desp prédicteurs

David Nerini (COM) Cours M2, 2008-2009 premier semestre 17 / 27

(36)

Exemples : Y catégorielle et X fonctionnelle bivariée

Example

-1.0 -0.5 0.0 0.5 1.0

-1.0-0.50.00.51.0

x

y

0.0 0.2 0.4 0.6 0.8 1.0

-0.50.00.5

time

x(t)

0.0 0.2 0.4 0.6 0.8 1.0

-0.6-0.20.20.6

time

y(t)

0.0 0.2 0.4 0.6 0.8 1.0

0.020.040.06

time

stand. dev.

0.0 0.2 0.4 0.6 0.8 1.0

0.000.020.04

time

stand. dev.

The average otolith is de…ned as f(x(t),y(t)),t 2[0;1]g

The variance can be computed and allows to identify variability zones

(37)

Exemples : Y catégorielle et X fonctionnelle bivariée

Example

-1.0 -0.5 0.0 0.5 1.0

-1.0-0.50.00.51.0

x

y

0.0 0.2 0.4 0.6 0.8 1.0

-0.50.00.5

time

x(t)

0.0 0.2 0.4 0.6 0.8 1.0

-0.6-0.20.20.6

time

y(t)

0.0 0.2 0.4 0.6 0.8 1.0

0.020.040.06

time

stand. dev.

0.0 0.2 0.4 0.6 0.8 1.0

0.000.020.04

time

stand. dev.

The average otolith is de…ned as f(x(t),y(t)),t 2[0;1]g

The variance can be computed and allows to identify variability zones

David Nerini (COM) Cours M2, 2008-2009 premier semestre 18 / 27

(38)

Exemples : Y catégorielle et X fonctionnelle bivariée

Example

-1.0 -0.5 0.0 0.5 1.0

-1.0-0.50.00.51.0

x

y

0.0 0.2 0.4 0.6 0.8 1.0

-0.50.00.5

time

x(t)

0.0 0.2 0.4 0.6 0.8 1.0

-0.6-0.20.20.6

time

y(t)

0.0 0.2 0.4 0.6 0.8 1.0

0.020.040.06

time

stand. dev.

0.0 0.2 0.4 0.6 0.8 1.0

0.000.020.04

time

stand. dev.

The average otolith is de…ned as f(x(t),y(t)),t 2[0;1]g

The variance can be computed and allows to identify variability zones

(39)

Apprentissage supervisé et non-supervisé

De…nition

L’ensemble des méthodes qui cherchent à reproduire une variableY étant données des observations simultanées de X font partie des méthodes d’apprentissage supervisé. Il s’agit de construire un modèle

y =fθ(x) +ε

à partir d’un échantillon d’apprentissage E. Et s’il n’y a pas d’information a priori ?

De…nition

Lorsqu’on cherche à regrouper des objets qui se ressemblent sur la base d’un échantillon des seules variables X, on parlera d’apprentissage non supervisé. On ne connaît pas a priori l’appartenance d’un individus à une classe qui serait donnée par Y : il faut déterminer un nombre de classes optimal

David Nerini (COM) Cours M2, 2008-2009 premier semestre 19 / 27

(40)

Apprentissage supervisé et non-supervisé

De…nition

L’ensemble des méthodes qui cherchent à reproduire une variableY étant données des observations simultanées de X font partie des méthodes d’apprentissage supervisé. Il s’agit de construire un modèle

y =fθ(x) +ε

à partir d’un échantillon d’apprentissage E. Et s’il n’y a pas d’information a priori ? De…nition

Lorsqu’on cherche à regrouper des objets qui se ressemblent sur la base d’un échantillon des seules variables X, on parlera d’apprentissage non supervisé. On ne connaît pas a priori l’appartenance d’un individus à une classe qui serait donnée par Y : il faut déterminer un nombre de classes optimal

(41)

Exemple : X réels

Example (cytométrie en ‡ux)

On utilisera dans ce cas desméthodes de classi…cation

David Nerini (COM) Cours M2, 2008-2009 premier semestre 20 / 27

(42)

Exemple : X qualitatifs

Un arbre de classi…cation ascendante est construit à partir d’un échantillon de "mots"

(43)

Récapitulatif

L’apprentissage statistique suppose l’existence d’unéchantillon de construction E. Il est constitué dep variables explicatives ou prédictives notées sous la forme d’un vecteur X.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XR[Θ un mélange de qualitatives et quantitatives. La variable à expliquer (à prédire, cible) peut être :

1 Y 2Rquantitative,

2 Z 2 f0,1gqualitative à 2 modalités,

3 T 2 Θqualitative.

David Nerini (COM) Cours M2, 2008-2009 premier semestre 22 / 27

(44)

Récapitulatif

L’apprentissage statistique suppose l’existence d’unéchantillon de construction E. Il est constitué dep variables explicatives ou prédictives notées sous la forme d’un vecteur X.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XR[Θ un mélange de qualitatives et quantitatives. La variable à expliquer (à prédire, cible) peut être :

1 Y 2Rquantitative,

2 Z 2 f0,1gqualitative à 2 modalités,

3 T 2 Θqualitative.

(45)

Récapitulatif

L’apprentissage statistique suppose l’existence d’unéchantillon de construction E. Il est constitué dep variables explicatives ou prédictives notées sous la forme d’un vecteur X.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XR[Θ un mélange de qualitatives et quantitatives. La variable à expliquer (à prédire, cible) peut être :

1 Y 2Rquantitative,

2 Z 2 f0,1gqualitative à 2 modalités,

3 T 2 Θqualitative.

David Nerini (COM) Cours M2, 2008-2009 premier semestre 22 / 27

(46)

Récapitulatif

L’apprentissage statistique suppose l’existence d’unéchantillon de construction E. Il est constitué dep variables explicatives ou prédictives notées sous la forme d’un vecteur X.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XR[Θ un mélange de qualitatives et quantitatives.

La variable à expliquer (à prédire, cible) peut être :

1 Y 2Rquantitative,

2 Z 2 f0,1gqualitative à 2 modalités,

3 T 2 Θqualitative.

(47)

Récapitulatif

L’apprentissage statistique suppose l’existence d’unéchantillon de construction E. Il est constitué dep variables explicatives ou prédictives notées sous la forme d’un vecteur X.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XR[Θ un mélange de qualitatives et quantitatives.

La variable à expliquer (à prédire, cible) peut être :

1 Y 2Rquantitative,

2 Z 2 f0,1gqualitative à 2 modalités,

3 T 2 Θqualitative.

David Nerini (COM) Cours M2, 2008-2009 premier semestre 22 / 27

(48)

Récapitulatif

L’apprentissage statistique suppose l’existence d’unéchantillon de construction E. Il est constitué dep variables explicatives ou prédictives notées sous la forme d’un vecteur X.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XR[Θ un mélange de qualitatives et quantitatives.

La variable à expliquer (à prédire, cible) peut être :

1 Y 2Rquantitative,

2 Z 2 f0,1gqualitative à 2 modalités,

3 T 2 Θqualitative.

(49)

Récapitulatif

L’apprentissage statistique suppose l’existence d’unéchantillon de construction E. Il est constitué dep variables explicatives ou prédictives notées sous la forme d’un vecteur X.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XR[Θ un mélange de qualitatives et quantitatives.

La variable à expliquer (à prédire, cible) peut être :

1 Y 2Rquantitative,

2 Z 2 f0,1gqualitative à 2 modalités,

3 T 2 Θqualitative.

David Nerini (COM) Cours M2, 2008-2009 premier semestre 22 / 27

(50)

Récapitulatif

L’apprentissage statistique suppose l’existence d’unéchantillon de construction E. Il est constitué dep variables explicatives ou prédictives notées sous la forme d’un vecteur X.

1 XR toutes quantitatives,

2 XΘ toutes qualitatives,

3 XR[Θ un mélange de qualitatives et quantitatives.

La variable à expliquer (à prédire, cible) peut être :

1 Y 2Rquantitative,

2 Z 2 f0,1gqualitative à 2 modalités,

3 T 2Θ qualitative.

(51)

Récapitulatif

Trois objectifs principaux sont poursuivis dans les applications classiques d’apprentissage :

1 Exploration multidimensionnelle ou réduction de dimension : production de graphes, d’un sous-ensemble de variables

représentatives des données initiales ou d’un ensemble de

composantes préalable à l’utilisation d’une autre technique (ex. Berre)

2 Classi…cation (clustering) ou segmentation : production d’une variable qualitative à partir de données quantitatives ou qualitatives.

3 Modélisation(Y ouZ) ou Discrimination (Z ouT) : production d’unmodèle de prévision deY (resp. Z,T)

Une fois ces étapes déterminées, on peut passer à la sélection et à l’utilisation des modèles construits dans un but prévisionnel.

David Nerini (COM) Cours M2, 2008-2009 premier semestre 23 / 27

(52)

Récapitulatif

Trois objectifs principaux sont poursuivis dans les applications classiques d’apprentissage :

1 Exploration multidimensionnelle ou réduction de dimension: production de graphes, d’un sous-ensemble de variables

représentatives des données initiales ou d’un ensemble de

composantes préalable à l’utilisation d’une autre technique (ex. Berre)

2 Classi…cation (clustering) ou segmentation : production d’une variable qualitative à partir de données quantitatives ou qualitatives.

3 Modélisation(Y ouZ) ou Discrimination (Z ouT) : production d’unmodèle de prévision deY (resp. Z,T)

Une fois ces étapes déterminées, on peut passer à la sélection et à l’utilisation des modèles construits dans un but prévisionnel.

(53)

Récapitulatif

Trois objectifs principaux sont poursuivis dans les applications classiques d’apprentissage :

1 Exploration multidimensionnelle ou réduction de dimension: production de graphes, d’un sous-ensemble de variables

représentatives des données initiales ou d’un ensemble de

composantes préalable à l’utilisation d’une autre technique (ex. Berre)

2 Classi…cation (clustering) ou segmentation : production d’une variable qualitative à partir de données quantitatives ou qualitatives.

3 Modélisation(Y ouZ) ou Discrimination (Z ouT) : production d’unmodèle de prévision deY (resp. Z,T)

Une fois ces étapes déterminées, on peut passer à la sélection et à l’utilisation des modèles construits dans un but prévisionnel.

David Nerini (COM) Cours M2, 2008-2009 premier semestre 23 / 27

(54)

Récapitulatif

Trois objectifs principaux sont poursuivis dans les applications classiques d’apprentissage :

1 Exploration multidimensionnelle ou réduction de dimension: production de graphes, d’un sous-ensemble de variables

représentatives des données initiales ou d’un ensemble de

composantes préalable à l’utilisation d’une autre technique (ex. Berre)

2 Classi…cation (clustering) ou segmentation : production d’une variable qualitative à partir de données quantitatives ou qualitatives.

3 Modélisation(Y ouZ) ou Discrimination (Z ouT) : production d’unmodèle de prévision de Y (resp. Z,T)

Une fois ces étapes déterminées, on peut passer à la sélection et à l’utilisation des modèles construits dans un but prévisionnel.

(55)

Récapitulatif

Trois objectifs principaux sont poursuivis dans les applications classiques d’apprentissage :

1 Exploration multidimensionnelle ou réduction de dimension: production de graphes, d’un sous-ensemble de variables

représentatives des données initiales ou d’un ensemble de

composantes préalable à l’utilisation d’une autre technique (ex. Berre)

2 Classi…cation (clustering) ou segmentation : production d’une variable qualitative à partir de données quantitatives ou qualitatives.

3 Modélisation(Y ouZ) ou Discrimination (Z ouT) : production d’unmodèle de prévision de Y (resp. Z,T)

Une fois ces étapes déterminées, on peut passer à la sélection et à l’utilisation des modèles construits dans un but prévisionnel.

David Nerini (COM) Cours M2, 2008-2009 premier semestre 23 / 27

(56)

Prévision

L’ensemble des méthodes utilisées peuvent servir à faire des prévisions Example (Arbre de classi…cation)

Comment estimer le bon comportement du modèle ?

(57)

Prévision

L’ensemble des méthodes utilisées peuvent servir à faire des prévisions Example (Arbre de classi…cation)

Comment estimer le bon comportement du modèle ?

David Nerini (COM) Cours M2, 2008-2009 premier semestre 24 / 27

(58)

Prévision

Les performances d’un modèle sont basées sur des critères de qualité de prévision qui visent la recherche demodèles parcimonieux. Ces modèles fournissent un compromis entre une complexité limitée (nombre de paramètres ou ‡exibilité) et une bonne capacité de généralisation. L’interprétabilité passe au deuxième plan

Example

(59)

Prévision

Les performances d’un modèle sont basées sur des critères de qualité de prévision qui visent la recherche demodèles parcimonieux. Ces modèles fournissent un compromis entre une complexité limitée (nombre de paramètres ou ‡exibilité) et une bonne capacité de généralisation. L’interprétabilité passe au deuxième plan Example

David Nerini (COM) Cours M2, 2008-2009 premier semestre 25 / 27

(60)

Modèles agrégés (bagging)

Il existe un moyen e¢ cace de tester la capacité de prévisiond’un modèle grâce à la technique du Bootstrap

La prévision est donnée par ϕB(x) =moyi ϕ x,L(i)

On peut soit utiliserB fois le même modèle soit en utiliser plusieurs : la stratégie du choix du modèle n’est pas …gée

(61)

Modèles agrégés (bagging)

Il existe un moyen e¢ cace de tester la capacité de prévisiond’un modèle grâce à la technique du Bootstrap

La prévision est donnée par ϕB(x) =moyi ϕ x,L(i)

On peut soit utiliserB fois le même modèle soit en utiliser plusieurs : la stratégie du choix du modèle n’est pas …gée

David Nerini (COM) Cours M2, 2008-2009 premier semestre 26 / 27

(62)

Modèles agrégés (bagging)

Il existe un moyen e¢ cace de tester la capacité de prévisiond’un modèle grâce à la technique du Bootstrap

La prévision est donnée par ϕB(x) =moyi ϕ x,L(i)

On peut soit utiliserB fois le même modèle soit en utiliser plusieurs : la stratégie du choix du modèle n’est pas …gée

(63)

Finalement

Les objectifs (ambitieux...) de ce cours sont :

1 Comprendre ce qu’est un tableau de donnéeset les di¤érentes variablesqui le composent

2 Donner lesbases géométriques nécessaires à la construction des modèleset à la compréhension de certaines notions en statistiques

3 Aborder quelques méthodes de classi…cation,segmentationet d’aide à la décision(AFD)

4 Donner les bases de la construction de modèles agrégés parbootstrap

5 Appliquer quelques unes de ces méthodes sur ordinateur

Mon (piêtre) objectif est que vous puissiez ouvrir ensuite un livre qui traite de ce sujet sans prendre peur !

David Nerini (COM) Cours M2, 2008-2009 premier semestre 27 / 27

(64)

Finalement

Les objectifs (ambitieux...) de ce cours sont :

1 Comprendre ce qu’est untableau de données et les di¤érentes variablesqui le composent

2 Donner lesbases géométriques nécessaires à la construction des modèleset à la compréhension de certaines notions en statistiques

3 Aborder quelques méthodes de classi…cation,segmentationet d’aide à la décision(AFD)

4 Donner les bases de la construction de modèles agrégés parbootstrap

5 Appliquer quelques unes de ces méthodes sur ordinateur

Mon (piêtre) objectif est que vous puissiez ouvrir ensuite un livre qui traite de ce sujet sans prendre peur !

(65)

Finalement

Les objectifs (ambitieux...) de ce cours sont :

1 Comprendre ce qu’est untableau de données et les di¤érentes variablesqui le composent

2 Donner lesbases géométriques nécessaires à la construction des modèleset à la compréhension de certaines notions en statistiques

3 Aborder quelques méthodes de classi…cation,segmentationet d’aide à la décision(AFD)

4 Donner les bases de la construction de modèles agrégés parbootstrap

5 Appliquer quelques unes de ces méthodes sur ordinateur

Mon (piêtre) objectif est que vous puissiez ouvrir ensuite un livre qui traite de ce sujet sans prendre peur !

David Nerini (COM) Cours M2, 2008-2009 premier semestre 27 / 27

(66)

Finalement

Les objectifs (ambitieux...) de ce cours sont :

1 Comprendre ce qu’est untableau de données et les di¤érentes variablesqui le composent

2 Donner lesbases géométriques nécessaires à la construction des modèleset à la compréhension de certaines notions en statistiques

3 Aborder quelques méthodes de classi…cation,segmentationet d’aide à la décision(AFD)

4 Donner les bases de la construction de modèles agrégés parbootstrap

5 Appliquer quelques unes de ces méthodes sur ordinateur

Mon (piêtre) objectif est que vous puissiez ouvrir ensuite un livre qui traite de ce sujet sans prendre peur !

(67)

Finalement

Les objectifs (ambitieux...) de ce cours sont :

1 Comprendre ce qu’est untableau de données et les di¤érentes variablesqui le composent

2 Donner lesbases géométriques nécessaires à la construction des modèleset à la compréhension de certaines notions en statistiques

3 Aborder quelques méthodes de classi…cation,segmentationet d’aide à la décision(AFD)

4 Donner les bases de la construction de modèles agrégés parbootstrap

5 Appliquer quelques unes de ces méthodes sur ordinateur

Mon (piêtre) objectif est que vous puissiez ouvrir ensuite un livre qui traite de ce sujet sans prendre peur !

David Nerini (COM) Cours M2, 2008-2009 premier semestre 27 / 27

(68)

Finalement

Les objectifs (ambitieux...) de ce cours sont :

1 Comprendre ce qu’est untableau de données et les di¤érentes variablesqui le composent

2 Donner lesbases géométriques nécessaires à la construction des modèleset à la compréhension de certaines notions en statistiques

3 Aborder quelques méthodes de classi…cation,segmentationet d’aide à la décision(AFD)

4 Donner les bases de la construction de modèles agrégés parbootstrap

5 Appliquer quelques unes de ces méthodes sur ordinateur

Mon (piêtre) objectif est que vous puissiez ouvrir ensuite un livre qui traite de ce sujet sans prendre peur !

(69)

Finalement

Les objectifs (ambitieux...) de ce cours sont :

1 Comprendre ce qu’est untableau de données et les di¤érentes variablesqui le composent

2 Donner lesbases géométriques nécessaires à la construction des modèleset à la compréhension de certaines notions en statistiques

3 Aborder quelques méthodes de classi…cation,segmentationet d’aide à la décision(AFD)

4 Donner les bases de la construction de modèles agrégés parbootstrap

5 Appliquer quelques unes de ces méthodes sur ordinateur

Mon (piêtre) objectif est que vous puissiez ouvrir ensuite un livre qui traite de ce sujet sans prendre peur !

David Nerini (COM) Cours M2, 2008-2009 premier semestre 27 / 27

Références

Documents relatifs

la condizione che W sia semiideale. La dimostrazione del teorema 2.2 può essere semplificata usando l’ipotesi del continuo ’) e cioè sfruttando il teorema di Keisler

Nel successivo § 3 si deducono dei teoremi di struttura, tra cui una caratterizzazione degli anelli noetheriani normali in cui lo 0 è privo di componenti immerse

Le traitement d’images permet d’extraire des caractéristiques pertinentes, qui sont utilisées par le réseau de neurones pour identier ou vérier la signature. L’intérêt

Dans cette etude, nous developpons un systeme de classication supervisee d'images Sonar permettant la distinction entre quatre types de fonds marins : cailloux, dunes, rides de sable

È ben noto come il concetto di classe di ripartizioni e quello ad esso collegato di classe differenziale, introdotti in [2] da Barsotti, si siano

MAGARI, Congruenze di un prodotto diretto legate alle congruenze dei fattori (congruenze ideali I) sta in Algebre a congruenze speciali, Istituto Naz. di

Le proposizioni 2.15 e 2.16 sono state ottenute sfruttando risultati noti per il gruppo delle classi di divisori, e tenendo conto che, nelle ipotesi assunte, tale

On peut appeler cos^ : coeffi- cient de corrélation fonctionnelle de y avec x (ou, mieux, avec H(x)) : c'est le maximum de la corrélation entre y et une fonction (certaine) de