• Aucun résultat trouvé

Introduction à la régression cours n°1

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction à la régression cours n°1"

Copied!
29
0
0

Texte intégral

(1)

Introduction à la régression cours n°1

ENSM.SE – axe MSA

(2)

Présentation

Objectifs

– Comprendre la problématique générale de la régression.

– Savoir mettre en œuvre la régression linéaire dans un cas simple, mais réaliste.

Evaluation

– TP le 21 novembre : 20%

– Etude critique le 23 novembre : 20%

– TP le 12 décembre : 20%

– Examen avec documents : 40%

(3)

Calendrier

• mardi 8 novembre (8h15-11h30) :

introduction, régression, moindres carrés

• mercredi 9 novembre (8h15-11h30) :

analyse de variance (ANOVA), modèle probabiliste

• lundi 21 novembre (8h15-11h30) :

TP sur les données de taille

• mardi 22 novembre (8h15-11h30) :

ANOVA complète, résidus

(4)

Calendrier (suite)

• mercredi 23 novembre (8h15-11h30) étude critique

• mardi 29 novembre (8h15-11h30)

prévision + régression non paramétrique

• lundi 12 décembre (8h15-9h45) TP régression non paramétrique

• vendredi 16 décembre (8h15-9h45) examen

(5)

Problématique de la régression

Lien entre une réponse y

et des prédicteurs x1,…, xp

… dans un contexte incertain

… à partir d’expériences

… dans un but prédictif

(6)

Classification

• réponse quantitative/qualitative

• régression paramétrique/non paramétrique

• régression linéaire/non linéaire

• prédicteurs contrôlés/non contrôlés

(7)

Exemple 1 : Société de crédit

Variables Client

• âge

• sexe

• situation

• nombre de voitures

• revenus

• ...

Modèle

Statistique Score

Aide à la décision : acceptation ou rejet

du client But : cibler au mieux un client potentiel

(8)

Exemple 2 : Société d’autoroute

Variables trafic

• date

• heure

• station de mesure

• débit

• type de véhicule

• vitesse instantanée

• ...

Modèle Statistique

Indicateurs du trafic

Aide à la prévision : optimiser le trafic, la

gestion des sections à péage But : prévoir le trafic sur une section d’autoroute de son réseau

(9)

Exemple 3 : Calcination de la chaux

Variables four

• température

• pression

• ...

Modèle

Statistique quantité produite

aide à la production : maximiser la plus-value But : optimiser la réaction

(10)

Aspects formels

• L'espérance conditionnelle comme espérance

• L'espérance conditionnelle comme projection

• L'espérance conditionnelle linéaire

• Cas gaussien

• Prédicteurs qualitatifs

(11)

Exemple 1

Récupération de cartons dans la grande distribution

• Réponse = tonnage de cartons annuel

• Prédicteur = CA HT

+ surface commerciale + prestataire + catégorie

• 102 observations

(12)

exemple 1

0 20000 40000 60000 80000

020040060080010001200

CA en keuros

cartons en tonnes

(13)

cartons = β

0

+ β

CA

CA

0 20000 40000 60000 80000

020040060080010001200

CA en keuros

cartons en tonnes

(14)

exemple 1 – différents modèles

0 20000 40000 60000 80000

020040060080010001200

CA en keuros

cartons en tonnes

degré 1 degré 2 degré 3

(15)

0 20000 40000 60000 80000 -400 040

CA

sidus

0 20000 40000 60000 80000

-400 0400

CA

sidus

cartons ~ CA - degré 2

0 20000 40000 60000 80000

-400 0400

CA

sidus

cartons ~ CA - degré 3

comportement non satisfaisant

(16)

Questions/objectifs

• Estimer "au mieux" l'équation de la droite

• Utilité de la variable CA ?

• Effet des autres variables ?

• Validation

• Précision des résultats

• Prévisions et contrôles

• …

(17)

Les moindres carrés

• Notations

• Equation normale

• Interprétation géométrique

• Un premier indicateur de validation

(18)

0 200 400 600 800 -200200

tonnage cartons estimé

sidu

0 200 400 600 800

-300 0200

tonnage cartons estimé

sidus

cartons ~ CA - degré 2

0 200 400 600 800

-300 0200

tonnage cartons estimé

sidus

cartons ~ CA - degré 3

(19)

0 200 400 600 -200200

tonnage cartons estimé

sidus

0 200 400 600 800

-300 0200

tonnage cartons estimé

sidus

cartons ~ CA - degré 2

0 200 400 600 800

-300 0300

tonnage cartons estimé

sidus

cartons ~ CA - degré 3

(20)

0 200 400 600 -200 0200400

tonnage cartons estimé

sidus

cartons ~ CA - degré 1

(21)

exemple 1

après transformation logarithmique

8.0 8.5 9.0 9.5 10.0 10.5 11.0

1234567

log(CA) en keuros

log(cartons) en tonnes

(22)

exemple 1 transformé – modèles

8.0 8.5 9.0 9.5 10.0 10.5 11.0

1234567

log(CA) en keuros log(cartons) en tonnes degré 1

degré 2 degré 3

(23)

8 9 10 11 12 -3-113

log(CA)

sidus

log(cartons) ~ log(CA) - degré 1

8 9 10 11 12

-3-113

log(CA)

sidus

log(cartons) ~ log(CA) - degré 2

8 9 10 11 12

-3-113

log(CA)

sidus

log(cartons) ~ log(CA) - degré 3

(24)

2 3 4 5 6 -2012

log(tonnage cartons) estimé

sidus

3 4 5 6 7

-202

log(tonnage cartons) estimé

sidus

log(cartons) ~ log(CA) - degré 2

3 4 5 6

-202

log(tonnage cartons) estimé

sidus

log(cartons) ~ log(CA) - degré 3

(25)

Zoom sur le modèle de degré 1

8 9 10 11 12

-3-113

log(CA)

sidus

log(cartons) ~ log(CA) - degré 1

2 3 4 5 6

-202

log(tonnage cartons) estimé

sidus

(26)

8 9 10 11 12 -3-2-10123

log(CA)

sidus

log(cartons) ~ log(CA) - degré 1

prestataire 0 prestataire C

(27)

Variable surface

0 2000 4000 6000 8000 10000 12000

-2-1012

surface

sidus

log(cartons) ~ log(CA) - degré 1

(28)

prestataire C prestataire O -2-1012

log(cartons) ~ log(CA) - degré 1 résidus

(29)

Variable catégorie

hyper super

-2-1012

log(cartons) ~ log(CA) - degré 1 résidus

Références

Documents relatifs

On peut concevoir le coefficient de corrélation comme un indice de la qualité de la droite idéale passant par les points (ou encore comme la pente quand les valeurs des deux

 Résidus bruts, standardisés, studentisés très différents pour cette observation. 

 Résidus bruts, standardisés, studentisés très différents pour cette observation... sans obs n°9 -

  Représenter graphiquement les vecteurs Y, et de sorte que les quantités SSR, SSE et SST soient

Introduction à la régression cours n°3.. ENSM.SE –

 Intérêt  : la concentration en peptide-C reflète le potentiel d’un individu à sécréter l’insuline et donc à métaboliser les glucides.  Problème : prévoir

progressivement, et tracer cette relation sous la forme d'une fonction: un graphique dans un plan cartésien. C'est un résultat quantitatif et il est absolument primordial que ce type

Cette remarque introduit toute la problématique du choix de modèle en ré- gression lorsque l’objectif principal est de trouver un “meilleur” modèle de prévision : un modèle