• Aucun résultat trouvé

Régression logistique et scoring

N/A
N/A
Protected

Academic year: 2022

Partager "Régression logistique et scoring"

Copied!
861
0
0

Texte intégral

(1)

Régression logistique et scoring

L. Rouvière

laurent.rouviere@univ-rennes2.fr

Janvier 2017

(2)

Plan du cours

1 Introduction aux GLM

2 Analyse du modèle de régression logistique

3 Sélection-Validation de modèle

4 Quelques modèles logistiques polytomiques

5 Schéma d’échantillonnage rétrospectif

6 Grande dimension : régression logistique pénalisée

7 Introduction au scoring

(3)

Première partie I

Introduction aux GLM

(4)

1 Modèle statistique Modèle de densité Modèle de régression

Rappels sur le modèle de régression linéaire

2 Introduction au modèle de régression logistique Exemples

Régression logistique simple

3 Le modèle linéaire généralisé Introduction

Définitions

Modèle de Poisson

(5)

1 Modèle statistique Modèle de densité Modèle de régression

Rappels sur le modèle de régression linéaire

2 Introduction au modèle de régression logistique Exemples

Régression logistique simple

3 Le modèle linéaire généralisé Introduction

Définitions

Modèle de Poisson

(6)

Modèle

Qu’est-ce qu’un modèle ?

Mathématiquement, un modèle est un triplet (H,A,{P,P ∈ P})avec Hest l’espace des observations (l’ensemble de tous les résultats possibles de l’expérience) ;

Aest une tribu surH;

P est une famille de probabilités définie sur (H,A).

A quoi sert un modèle ?

Expliquer, décrire les mécanismes du phénomène considéré.

Question : quel est le lien entre la définition mathématique et l’utilité du phénomène ?

(7)

Modèle

Qu’est-ce qu’un modèle ?

Mathématiquement, un modèle est un triplet (H,A,{P,P ∈ P})avec Hest l’espace des observations (l’ensemble de tous les résultats possibles de l’expérience) ;

Aest une tribu surH;

P est une famille de probabilités définie sur (H,A).

A quoi sert un modèle ?

Expliquer, décrire les mécanismes du phénomène considéré.

Question : quel est le lien entre la définition mathématique et l’utilité du phénomène ?

(8)

Modèle

Qu’est-ce qu’un modèle ?

Mathématiquement, un modèle est un triplet (H,A,{P,P ∈ P})avec Hest l’espace des observations (l’ensemble de tous les résultats possibles de l’expérience) ;

Aest une tribu surH;

P est une famille de probabilités définie sur (H,A).

A quoi sert un modèle ?

Expliquer, décrire les mécanismes du phénomène considéré.

Question : quel est le lien entre la définition mathématique et l’utilité du phénomène ?

(9)

Modèle

Qu’est-ce qu’un modèle ?

Mathématiquement, un modèle est un triplet (H,A,{P,P ∈ P})avec Hest l’espace des observations (l’ensemble de tous les résultats possibles de l’expérience) ;

Aest une tribu surH;

P est une famille de probabilités définie sur (H,A).

A quoi sert un modèle ?

Expliquer, décrire les mécanismes du phénomène considéré.

Question : quel est le lien entre la définition mathématique et l’utilité du phénomène ?

(10)

Modèle

Qu’est-ce qu’un modèle ?

Mathématiquement, un modèle est un triplet (H,A,{P,P ∈ P})avec Hest l’espace des observations (l’ensemble de tous les résultats possibles de l’expérience) ;

Aest une tribu surH;

P est une famille de probabilités définie sur (H,A).

A quoi sert un modèle ?

Expliquer, décrire les mécanismes du phénomène considéré.

Question : quel est le lien entre la définition mathématique et l’utilité du phénomène ?

(11)

1 Modèle statistique Modèle de densité Modèle de régression

Rappels sur le modèle de régression linéaire

2 Introduction au modèle de régression logistique Exemples

Régression logistique simple

3 Le modèle linéaire généralisé Introduction

Définitions

Modèle de Poisson

(12)

Exemple 1

On souhaite tester l’efficacité d’un nouveau traitement à l’aide d’un essai clinique.

On traiten =100 patients atteints de la pathologie.

A l’issue de l’étude, 72 patients sont guéris.

Soitp0 la probabilité de guérison suite au traitement en question.

On est tentés de conclurep0 ≈0.72.

Un tel résultat n’a cependant guère d’intêret si on n’est pas capable de préciser l’erreur susceptible d’être commise par cette estimation.

(13)

Exemple 1

On souhaite tester l’efficacité d’un nouveau traitement à l’aide d’un essai clinique.

On traiten =100 patients atteints de la pathologie.

A l’issue de l’étude, 72 patients sont guéris.

Soitp0 la probabilité de guérison suite au traitement en question.

On est tentés de conclurep0 ≈0.72.

Un tel résultat n’a cependant guère d’intêret si on n’est pas capable de préciser l’erreur susceptible d’être commise par cette estimation.

(14)

Exemple 2

On s’intéresse au nombre de mails reçus par jour par un utilisateur pendant 36 journées.

¯

x =5.22,Sn2 =5.72.

051015

Diagramme en bâtons

Nb mails

frequence

1 3 5 7 9 11

Histogramme

mails

Density

0 2 4 6 8 10 12

0.000.050.100.15

Quelle est la probabilité de recevoir plus de 5 mails dans une journée ?

(15)

Exemple 2

On s’intéresse au nombre de mails reçus par jour par un utilisateur pendant 36 journées.

¯

x =5.22,Sn2 =5.72.

051015

Diagramme en bâtons

Nb mails

frequence

1 3 5 7 9 11

Histogramme

mails

Density

0 2 4 6 8 10 12

0.000.050.100.15

Quelle est la probabilité de recevoir plus de 5 mails dans une journée ?

(16)

Exemple 3

Durée de trajet domicile-travail.

On dispose den=100 mesures :x¯=25.1,Sn2=14.46.

Histogramme

trajet

Density

20 25 30

0.000.020.040.060.080.10

J’ai une réunion à 8h30, quelle est la probabilité que j’arrive en retard si je pars de chez moi à 7h55 ?

(17)

Exemple 3

Durée de trajet domicile-travail.

On dispose den=100 mesures :x¯=25.1,Sn2=14.46.

Histogramme

trajet

Density

20 25 30

0.000.020.040.060.080.10

J’ai une réunion à 8h30, quelle est la probabilité que j’arrive en retard si je pars de chez moi à 7h55 ?

(18)

Problème

Nécessité de se dégager des observationsx1, . . . ,xn pour répondre à de telles questions.

Si on mesure la durée du trajet pendant 100 nouveaux jours, on peut en effet penser que les nouvelles observations ne seront pas

exactement les mêmes que les anciennes.

Idée

Considérer que les n valeurs observées x1, . . . ,xn sont des réalisations de variables aléatoiresX1, . . . ,Xn.

Attention

Xi est une variable aléatoire etxi est une réalisation de cette variable, c’est-à-dire un nombre !

(19)

Problème

Nécessité de se dégager des observationsx1, . . . ,xn pour répondre à de telles questions.

Si on mesure la durée du trajet pendant 100 nouveaux jours, on peut en effet penser que les nouvelles observations ne seront pas

exactement les mêmes que les anciennes.

Idée

Considérer que les n valeurs observées x1, . . . ,xn sont des réalisations de variables aléatoiresX1, . . . ,Xn.

Attention

Xi est une variable aléatoire etxi est une réalisation de cette variable, c’est-à-dire un nombre !

(20)

Problème

Nécessité de se dégager des observationsx1, . . . ,xn pour répondre à de telles questions.

Si on mesure la durée du trajet pendant 100 nouveaux jours, on peut en effet penser que les nouvelles observations ne seront pas

exactement les mêmes que les anciennes.

Idée

Considérer que les n valeurs observées x1, . . . ,xn sont des réalisations de variables aléatoiresX1, . . . ,Xn.

Attention

Xi est une variable aléatoire etxi est une réalisation de cette variable, c’est-à-dire un nombre !

(21)

Variables aléatoires

Définition

Unevariable aléatoire réelle est une application X : (Ω,A)→(R,B(R))

telle que

∀B∈ B(R),X−1(B)∈ A.

Lors de la modélisation statistique, l’espaceΩ n’est généralement jamais caractérisé.

Il contient tous les "phénoménes" pouvant expliquer les sources d’aléa (qui ne sont pas explicables...).

En pratique, l’espace d’arrivée est généralement suffisant.

(22)

Variables aléatoires

Définition

Unevariable aléatoire réelle est une application X : (Ω,A)→(R,B(R))

telle que

∀B∈ B(R),X−1(B)∈ A.

Lors de la modélisation statistique, l’espaceΩ n’est généralement jamais caractérisé.

Il contient tous les "phénoménes" pouvant expliquer les sources d’aléa (qui ne sont pas explicables...).

En pratique, l’espace d’arrivée est généralement suffisant.

(23)

Variables aléatoires

Définition

Unevariable aléatoire réelle est une application X : (Ω,A)→(R,B(R))

telle que

∀B∈ B(R),X−1(B)∈ A.

Lors de la modélisation statistique, l’espaceΩ n’est généralement jamais caractérisé.

Il contient tous les "phénoménes" pouvant expliquer les sources d’aléa (qui ne sont pas explicables...).

En pratique, l’espace d’arrivée est généralement suffisant.

(24)

Loi de probabilité

Loi de probabilité

Etant donnée Pune probabilité sur (Ω,A) etX une variable aléatoire réelle définie sur Ω, on appelle loi de probabilité deX la mesure PX définie par PX(B) =P(X−1(B)) =P(X ∈B) =P({ω∈Ω :X(ω)∈B}) ∀B ∈ B(R).

Une loi de probabilité est caractérisée par

sa fonction de répartition :FX(x) =P(X ≤x).

sa densité : fx :R→R+ telle que ∀B ∈ B(R) PX(B) =

Z

B

fX(x)dx.

(25)

Loi de probabilité

Loi de probabilité

Etant donnée Pune probabilité sur (Ω,A) etX une variable aléatoire réelle définie sur Ω, on appelle loi de probabilité deX la mesure PX définie par PX(B) =P(X−1(B)) =P(X ∈B) =P({ω∈Ω :X(ω)∈B}) ∀B ∈ B(R).

Une loi de probabilité est caractérisée par

sa fonction de répartition :FX(x) =P(X ≤x).

sa densité : fx :R→R+ telle que ∀B ∈ B(R) PX(B) =

Z

B

fX(x)dx.

(26)

Un modèle pour l’exemple 1

On note xi =1 si le ième patient a guéri, 0 sinon.

On peut supposer quexi est la réalisation d’une variable aléatoireXi de loi de bernoulli de paramètre p0.

Si les individus sont choisis de manière indépendanteet ont tous la même probabilité de guérir(ce qui peut revenir à dire qu’ils en sont au même stade de la pathologie), il est alors raisonnable de supposer que les variables aléatoires X1, . . . ,Xn sont indépendantes et de même loi (i.i.d.).

On dit que X1, . . . ,Xn est un n-échantillonde variables aléatoires indépendantes de même loi B(p0).

(27)

Un modèle pour l’exemple 1

On note xi =1 si le ième patient a guéri, 0 sinon.

On peut supposer quexi est la réalisation d’une variable aléatoireXi de loi de bernoulli de paramètre p0.

Si les individus sont choisis de manière indépendanteet ont tous la même probabilité de guérir(ce qui peut revenir à dire qu’ils en sont au même stade de la pathologie), il est alors raisonnable de supposer que les variables aléatoires X1, . . . ,Xn sont indépendantes et de même loi (i.i.d.).

On dit que X1, . . . ,Xn est un n-échantillonde variables aléatoires indépendantes de même loi B(p0).

(28)

Un modèle pour l’exemple 1

On note xi =1 si le ième patient a guéri, 0 sinon.

On peut supposer quexi est la réalisation d’une variable aléatoireXi de loi de bernoulli de paramètre p0.

Si les individus sont choisis de manière indépendanteet ont tous la même probabilité de guérir(ce qui peut revenir à dire qu’ils en sont au même stade de la pathologie), il est alors raisonnable de supposer que les variables aléatoires X1, . . . ,Xn sont indépendantes et de même loi (i.i.d.).

On dit que X1, . . . ,Xn est un n-échantillonde variables aléatoires indépendantes de même loi B(p0).

(29)

Définitions

Modèle

On appelle modèle statistiquetout triplet(H,A,P) où

Hest l’espace des observations (l’ensemble de tous les résultats possibles de l’expérience) ;

Aest une tribu surH;

P est une famille de probabilités définie sur (H,A).

Le problème du statisticien

n variables aléatoires i.i.d.X1, . . . ,Xn de loi P.

Trouver une famille de loisP susceptible de contenirP.

Trouver dans P une loi qui soitla plus prochedeP

(30)

Définitions

Modèle

On appelle modèle statistiquetout triplet(H,A,P) où

Hest l’espace des observations (l’ensemble de tous les résultats possibles de l’expérience) ;

Aest une tribu surH;

P est une famille de probabilités définie sur (H,A).

Le problème du statisticien

n variables aléatoires i.i.d.X1, . . . ,Xn de loi P.

Trouver une famille de loisP susceptible de contenirP.

Trouver dans P une loi qui soitla plus prochedeP

(31)

Exemples

H A P

Exemple 1 {0,1} P({0,1}) {B(p),p ∈[0,1]}

Exemple 2 N P(N) {P(λ),λ>0}

Exemple 3 R B(R) {N(µ,σ2),µ∈R,σ∈R+}

(32)

Paramétrique versus non paramétrique

Définition

SiP ={Pθ, θ∈Θ} où Θ∈Rd alors on parle demodèle paramétrique et Θest l’espace des paramètres.

SiP ={P,P∈ F }où F est de dimension infinie, on parle demodèle non paramétrique.

Exemple : modèle de densité

P ={N(µ, σ2),(µ, σ2)∈R×R+}est un modèle paramétrique.

P ={densitésf 2 fois dérivables}est un modèle non paramétrique.

Le problème sera d’estimer(µ, σ2)ou f à partir de l’échantillon X1, . . . ,Xn.

(33)

Paramétrique versus non paramétrique

Définition

SiP ={Pθ, θ∈Θ} où Θ∈Rd alors on parle demodèle paramétrique et Θest l’espace des paramètres.

SiP ={P,P∈ F }où F est de dimension infinie, on parle demodèle non paramétrique.

Exemple : modèle de densité

P ={N(µ, σ2),(µ, σ2)∈R×R+}est un modèle paramétrique.

P ={densitésf 2 fois dérivables}est un modèle non paramétrique.

Le problème sera d’estimer(µ, σ2)ou f à partir de l’échantillon X1, . . . ,Xn.

(34)

Paramétrique versus non paramétrique

Définition

SiP ={Pθ, θ∈Θ} où Θ∈Rd alors on parle demodèle paramétrique et Θest l’espace des paramètres.

SiP ={P,P∈ F }où F est de dimension infinie, on parle demodèle non paramétrique.

Exemple : modèle de densité

P ={N(µ, σ2),(µ, σ2)∈R×R+}est un modèle paramétrique.

P ={densitésf 2 fois dérivables}est un modèle non paramétrique.

Le problème sera d’estimer(µ, σ2)ou f à partir de l’échantillon X1, . . . ,Xn.

(35)

Paramétrique versus non paramétrique

Définition

SiP ={Pθ, θ∈Θ} où Θ∈Rd alors on parle demodèle paramétrique et Θest l’espace des paramètres.

SiP ={P,P∈ F }où F est de dimension infinie, on parle demodèle non paramétrique.

Exemple : modèle de densité

P ={N(µ, σ2),(µ, σ2)∈R×R+}est un modèle paramétrique.

P ={densitésf 2 fois dérivables}est un modèle non paramétrique.

Le problème sera d’estimer(µ, σ2)ou f à partir de l’échantillon X1, . . . ,Xn.

(36)

1 Modèle statistique Modèle de densité Modèle de régression

Rappels sur le modèle de régression linéaire

2 Introduction au modèle de régression logistique Exemples

Régression logistique simple

3 Le modèle linéaire généralisé Introduction

Définitions

Modèle de Poisson

(37)

Modèle de régression

On cherche à expliquer une variableY par p variables explicatives X1, . . . ,Xp. On dispose d’unn échantillon i.i.d. (Xi,Yi),i =1, . . . ,n.

Modèle linéaire (paramétrique) On pose

Y =β01X1+. . .+βpXp+ε où ε∼ N(0, σ2).

Le problème est d’estimer β= (β0, . . . , βp)∈Rp+1 à l’aide de (X1,Y1), . . . ,(Xn,Yn).

Un modèle non paramétrique On pose

Y =m(X1, . . . ,Xp) +ε où m:Rp→Rest une fonction continue.

Le problème est d’estimer m à l’aide de(X1,Y1), . . . ,(Xn,Yn).

(38)

Modèle de régression

On cherche à expliquer une variableY par p variables explicatives X1, . . . ,Xp. On dispose d’unn échantillon i.i.d. (Xi,Yi),i =1, . . . ,n.

Modèle linéaire (paramétrique) On pose

Y =β01X1+. . .+βpXp+ε où ε∼ N(0, σ2).

Le problème est d’estimer β= (β0, . . . , βp)∈Rp+1 à l’aide de (X1,Y1), . . . ,(Xn,Yn).

Un modèle non paramétrique On pose

Y =m(X1, . . . ,Xp) +ε où m:Rp→Rest une fonction continue.

Le problème est d’estimer m à l’aide de(X1,Y1), . . . ,(Xn,Yn).

(39)

Modèle de régression

On cherche à expliquer une variableY par p variables explicatives X1, . . . ,Xp. On dispose d’unn échantillon i.i.d. (Xi,Yi),i =1, . . . ,n.

Modèle linéaire (paramétrique) On pose

Y =β01X1+. . .+βpXp+ε où ε∼ N(0, σ2).

Le problème est d’estimer β= (β0, . . . , βp)∈Rp+1 à l’aide de (X1,Y1), . . . ,(Xn,Yn).

Un modèle non paramétrique On pose

Y =m(X1, . . . ,Xp) +ε où m:Rp→Rest une fonction continue.

Le problème est d’estimer m à l’aide de(X1,Y1), . . . ,(Xn,Yn).

(40)

2 types d’erreur

Poser un modèle revient à choisir une famille de loi candidates pour reconstruire la loi des donnéesP.

Pˆ

P P

On distingue deux types d’erreurs :

Erreur d’estimation : erreur commise par le choix d’une loi dansP par rapport au meilleur choix.

Erreur d’approximation: erreur commise par le choix deP.

(41)

2 types d’erreur

Poser un modèle revient à choisir une famille de loi candidates pour reconstruire la loi des donnéesP.

Pˆ

P P

On distingue deux types d’erreurs :

Erreur d’estimation : erreur commise par le choix d’une loi dansP par rapport au meilleur choix.

Erreur d’approximation: erreur commise par le choix deP.

(42)

La modélisation

1 On récolten observations (n valeurs) x1, . . . ,xn qui sont le résultats den expériences aléatoires indépendantes.

2 Modélisation : onsuppose que lesn valeurs sont des réalisations den variables aléatoires indépendantesX1, . . . ,Xn et de même loiPθ0.

3 Estimation : chercher dans le modèle une loi Pθˆqui soit le plus proche possible dePθ0 =⇒ chercher unestimateurθˆdeθ0.

4 "Validation” de modèle : on revient en arrière et on tente de vérifier si l’hypothèse de l’étape 2 est raisonnable (test d’adéquation, etc...)

(43)

La modélisation

1 On récolten observations (n valeurs) x1, . . . ,xn qui sont le résultats den expériences aléatoires indépendantes.

2 Modélisation : onsuppose que lesn valeurs sont des réalisations den variables aléatoires indépendantesX1, . . . ,Xn et de même loiPθ0.

3 Estimation : chercher dans le modèle une loi Pθˆqui soit le plus proche possible dePθ0 =⇒ chercher unestimateurθˆdeθ0.

4 "Validation” de modèle : on revient en arrière et on tente de vérifier si l’hypothèse de l’étape 2 est raisonnable (test d’adéquation, etc...)

(44)

La modélisation

1 On récolten observations (n valeurs) x1, . . . ,xn qui sont le résultats den expériences aléatoires indépendantes.

2 Modélisation : onsuppose que lesn valeurs sont des réalisations den variables aléatoires indépendantesX1, . . . ,Xn et de même loiPθ0.

3 Estimation : chercher dans le modèle une loi Pθˆqui soit le plus proche possible dePθ0 =⇒ chercher unestimateurθˆdeθ0.

4 "Validation” de modèle : on revient en arrière et on tente de vérifier si l’hypothèse de l’étape 2 est raisonnable (test d’adéquation, etc...)

(45)

La modélisation

1 On récolten observations (n valeurs) x1, . . . ,xn qui sont le résultats den expériences aléatoires indépendantes.

2 Modélisation : onsuppose que lesn valeurs sont des réalisations den variables aléatoires indépendantesX1, . . . ,Xn et de même loiPθ0.

3 Estimation : chercher dans le modèle une loi Pθˆqui soit le plus proche possible dePθ0 =⇒ chercher unestimateurθˆdeθ0.

4 "Validation” de modèle : on revient en arrière et on tente de vérifier si l’hypothèse de l’étape 2 est raisonnable (test d’adéquation, etc...)

(46)

1 Modèle statistique Modèle de densité Modèle de régression

Rappels sur le modèle de régression linéaire

2 Introduction au modèle de régression logistique Exemples

Régression logistique simple

3 Le modèle linéaire généralisé Introduction

Définitions

Modèle de Poisson

(47)

Le problème de régression

On cherche à expliquer une variableY par p variablesX1, . . . ,Xp. Il s’agit de trouver une fonction m:Rp →Rtelle que

Y ≈m(X1, . . . ,Xp).

Sauf cas (très) particulier, le lien n’est jamais "parfait"

Y =m(X1, . . . ,Xp) +ε.

Modèle de régression

Poser un modèle de régression revient à supposer que la fonctionm appartient à un certain espaceM.

Le problème du statisticien sera alors de trouver la "meilleure" fonction dansMà l’aide d’unn-échantillon i.i.d. (X1,Y1), . . . ,(Xn,Yn).

(48)

Le problème de régression

On cherche à expliquer une variableY par p variablesX1, . . . ,Xp. Il s’agit de trouver une fonction m:Rp →Rtelle que

Y ≈m(X1, . . . ,Xp).

Sauf cas (très) particulier, le lien n’est jamais "parfait"

Y =m(X1, . . . ,Xp) +ε.

Modèle de régression

Poser un modèle de régression revient à supposer que la fonctionm appartient à un certain espaceM.

Le problème du statisticien sera alors de trouver la "meilleure" fonction dansMà l’aide d’unn-échantillon i.i.d. (X1,Y1), . . . ,(Xn,Yn).

(49)

Le problème de régression

On cherche à expliquer une variableY par p variablesX1, . . . ,Xp. Il s’agit de trouver une fonction m:Rp →Rtelle que

Y ≈m(X1, . . . ,Xp).

Sauf cas (très) particulier, le lien n’est jamais "parfait"

Y =m(X1, . . . ,Xp) +ε.

Modèle de régression

Poser un modèle de régression revient à supposer que la fonctionm appartient à un certain espaceM.

Le problème du statisticien sera alors de trouver la "meilleure" fonction dansMà l’aide d’unn-échantillon i.i.d. (X1,Y1), . . . ,(Xn,Yn).

(50)

Le problème de régression

On cherche à expliquer une variableY par p variablesX1, . . . ,Xp. Il s’agit de trouver une fonction m:Rp →Rtelle que

Y ≈m(X1, . . . ,Xp).

Sauf cas (très) particulier, le lien n’est jamais "parfait"

Y =m(X1, . . . ,Xp) +ε.

Modèle de régression

Poser un modèle de régression revient à supposer que la fonctionm appartient à un certain espaceM.

Le problème du statisticien sera alors de trouver la "meilleure" fonction dansMà l’aide d’unn-échantillon i.i.d. (X1,Y1), . . . ,(Xn,Yn).

(51)

Exemple de modèles

Modèle non paramétrique

L’espace Mest de dimension infinie.

Exemple : On poseY =m(X1, . . . ,Xp) +εoù mappartient à l’espace des fonctions continues.

Modèle paramétrique

L’espace Mest de dimension finie.

Exemple : on suppose que la fonctionm est linéaire Y =β01X1+. . .+βpXp+ε.

Le problème est alors d’estimerβ = (β0, β1, . . . , βp) à l’aide de (X1,Y1), . . . ,(Xn,Yn).

C’est le modèle de régression linéaire.

(52)

Exemple de modèles

Modèle non paramétrique

L’espace Mest de dimension infinie.

Exemple : On poseY =m(X1, . . . ,Xp) +εoù mappartient à l’espace des fonctions continues.

Modèle paramétrique

L’espace Mest de dimension finie.

Exemple : on suppose que la fonctionm est linéaire Y =β01X1+. . .+βpXp+ε.

Le problème est alors d’estimerβ = (β0, β1, . . . , βp) à l’aide de (X1,Y1), . . . ,(Xn,Yn).

C’est le modèle de régression linéaire.

(53)

Exemple

On cherche à expliquerou àprédirela concentration en ozone.

On dispose den =112 observations de la concentration en ozone ainsi que de 12 autres variables susceptibles d’expliquer cette

concentration :

Température relevée à différents moments de la journée.

Indice de nébulosité relevé à différents moments de la journée.

Direction du vent.

Pluie.

Question

Comment expliquer (modéliser) la concentration en ozone à l’aide de toutes ces variables ?

(54)

Exemple

On cherche à expliquerou àprédirela concentration en ozone.

On dispose den =112 observations de la concentration en ozone ainsi que de 12 autres variables susceptibles d’expliquer cette

concentration :

Température relevée à différents moments de la journée.

Indice de nébulosité relevé à différents moments de la journée.

Direction du vent.

Pluie.

Question

Comment expliquer (modéliser) la concentration en ozone à l’aide de toutes ces variables ?

(55)

Ozone en fonction de la température à 12h ?

MaxO3 87 82 92 114 94 80 . . .

T12 18.5 18.4 17.6 19.7 20.5 19.8 . . .

(56)

Ozone en fonction de la température à 12h ?

MaxO3 87 82 92 114 94 80 . . .

T12 18.5 18.4 17.6 19.7 20.5 19.8 . . .

15 20 25 30

406080100120140160

T12

maxO3

(57)

Ozone en fonction de la température à 12h ?

MaxO3 87 82 92 114 94 80 . . .

T12 18.5 18.4 17.6 19.7 20.5 19.8 . . .

15 20 25 30

406080100120140160

T12

maxO3

(58)

Ozone en fonction de la température à 12h ?

MaxO3 87 82 92 114 94 80 . . .

T12 18.5 18.4 17.6 19.7 20.5 19.8 . . .

15 20 25 30

406080100120140160

T12

maxO3

Comment ajuster le nuage de points ?

(59)

Ozone en fonction du vent ?

MaxO3 87 82 92 114 94 80 . . .

Vent Nord Nord Est Nord Ouest Ouest . . .

(60)

Ozone en fonction du vent ?

MaxO3 87 82 92 114 94 80 . . .

Vent Nord Nord Est Nord Ouest Ouest . . .

Est Nord Ouest Sud

406080100120140160

vent

maxO3

(61)

Ozone en fonction du vent ?

MaxO3 87 82 92 114 94 80 . . .

Vent Nord Nord Est Nord Ouest Ouest . . .

Est Nord Ouest Sud

406080100120140160

vent

maxO3

MaxO3≈α11Vent=est+. . .+α41Vent=sud. αj =???

(62)

Ozone en fonction de la température à 12h et du vent ?

T12

maxO3

50 100 150

15 20 25 30

Est

●●

Nord

●●

● ●

Ouest

15 20 25 30

50 100 150

Sud

maxO3≈





β0111T12 si vent=est

... ...

β0414T12 si vent=ouest

(63)

Ozone en fonction de la température à 12h et du vent ?

T12

maxO3

50 100 150

15 20 25 30

Est

●●

Nord

●●

● ●

Ouest

15 20 25 30

50 100 150

Sud

maxO3≈





β0111T12 si vent=est

... ...

β0414T12 si vent=ouest

(64)

Autre modélisation

Généralisation

maxO3≈β01V1+. . .+β12V12

Questions

Comment calculer (ou plutôt estimer) les paramètres βj?

Le modèle avec les 12 variables est-il "meilleur" que des modèles avec moins de variables ?

Comment trouver le "meilleur" sous-groupe de variables ?

(65)

Autre modélisation

Généralisation

maxO3≈β01V1+. . .+β12V12

Questions

Comment calculer (ou plutôt estimer) les paramètres βj?

Le modèle avec les 12 variables est-il "meilleur" que des modèles avec moins de variables ?

Comment trouver le "meilleur" sous-groupe de variables ?

(66)

Notations

Y : variable (aléatoire) à expliquer à valeurs dansR. X1, . . . ,Xp :p variables explicatives à valeurs dansR. n observations (x1,Y1), . . . ,(xn,Yn) avecxi = (xi1, . . . ,xip).

Le modèle de régression linéaire multiple Le modèle s’écrit :

Yi01xi1+. . .+βpxipi

où les erreurs aléatoires εi sont i.i.d. de loiN(0, σ2).

(67)

Notations

Y : variable (aléatoire) à expliquer à valeurs dansR. X1, . . . ,Xp :p variables explicatives à valeurs dansR. n observations (x1,Y1), . . . ,(xn,Yn) avecxi = (xi1, . . . ,xip).

Le modèle de régression linéaire multiple Le modèle s’écrit :

Yi01xi1+. . .+βpxipi

où les erreurs aléatoires εi sont i.i.d. de loiN(0, σ2).

(68)

Ecriture matricielle

On note

Y=

 Y1

... Yn

, X=

1 x11 . . . x1p

... ... ... 1 xn1 . . . xnp

, β=

 β0

... βp

, ε=

 ε1

... εn

Ecriture matricielle Le modèle se réécrit

Y=Xβ+ε où ε∼ N(0, σ2In).

(69)

Ecriture matricielle

On note

Y=

 Y1

... Yn

, X=

1 x11 . . . x1p

... ... ... 1 xn1 . . . xnp

, β=

 β0

... βp

, ε=

 ε1

... εn

Ecriture matricielle Le modèle se réécrit

Y=Xβ+ε où ε∼ N(0, σ2In).

(70)

Estimateurs des moindres carrés

Définition

On appelle estimateur des moindres carrésβˆ deβ la statistique suivante :

βˆ=argmin

β0,...,βp

n

X

i=1

(Yi −β0−β1xi1−. . . βpxip)2 =argmin

β∈Rp+1

kY−Xβk2.

On note F(X) le s.e.v. deRn de dimension p+1 engendré par les p+1 colonnes de X.

Chercher l’estimateur des moindres carrés revient à minimiser la distance entreY∈Rnet F(X).

(71)

Représentation géométrique

F(X)

Y

Yˆ=Xβˆ

(72)

Expression de l’estimateur des moindres carrés

On déduit que Xβˆest le projeté orthogonal deYsur F(X) : Xβˆ=PF(X)(Y) =X(X0X)−1X0Y.

Théorème

Si la matriceX est de plein rang, l’estimateur des MC est donné par : βˆ= (X0X)−1X0Y.

(73)

Expression de l’estimateur des moindres carrés

On déduit que Xβˆest le projeté orthogonal deYsur F(X) : Xβˆ=PF(X)(Y) =X(X0X)−1X0Y.

Théorème

Si la matriceX est de plein rang, l’estimateur des MC est donné par : βˆ= (X0X)−1X0Y.

(74)

Expression de l’estimateur des moindres carrés

On déduit que Xβˆest le projeté orthogonal deYsur F(X) : Xβˆ=PF(X)(Y) =X(X0X)−1X0Y.

Théorème

Si la matriceX est de plein rang, l’estimateur des MC est donné par : βˆ= (X0X)−1X0Y.

(75)

Propriété

1 βˆ est un estimateur sans biais deβ.

2 La matrice de variance-covariance de βˆest donnée par V( ˆβ) =σ2(X0X)−1.

3 βˆ est VUMSB.

(76)

Loi des estimateurs

Soitεˆ=Y−Yˆ le vecteur des résidus et cσ2 l’estimateur de σ2 défini par

2= kˆεk2 n−(p+1). Proposition

1 βˆ est un vecteur gaussien d’espéranceβ et de matrice de variance-covariance σ2(X0X)−1.

2 (n−(p+1))σσc22 ∼χ2n−(p+1).

3 βˆ etcσ2 sont indépendantes.

(77)

Loi des estimateurs

Soitεˆ=Y−Yˆ le vecteur des résidus et cσ2 l’estimateur de σ2 défini par

2= kˆεk2 n−(p+1). Proposition

1 βˆ est un vecteur gaussien d’espéranceβ et de matrice de variance-covariance σ2(X0X)−1.

2 (n−(p+1))σσc22 ∼χ2n−(p+1).

3 βˆ etcσ2 sont indépendantes.

(78)

Loi des estimateurs

Soitεˆ=Y−Yˆ le vecteur des résidus et cσ2 l’estimateur de σ2 défini par

2= kˆεk2 n−(p+1). Proposition

1 βˆ est un vecteur gaussien d’espéranceβ et de matrice de variance-covariance σ2(X0X)−1.

2 (n−(p+1))σσc22 ∼χ2n−(p+1).

3 βˆ etcσ2 sont indépendantes.

(79)

Intervalles de confiance et tests

Corollaire

On note cσj2 =cσ2[X0X]−1jj pourj =0, . . . ,p. On a

∀j =0, . . . ,p, βˆj −βj σbj

∼ T(n−(p+1)).

On déduit de ce corollaire :

des intervalles de confiance de niveau 1−α pourβj.

des procédures de test pour des hypothèses du genreH0j =0 contre H1j 6=0.

(80)

Intervalles de confiance et tests

Corollaire

On note cσj2 =cσ2[X0X]−1jj pourj =0, . . . ,p. On a

∀j =0, . . . ,p, βˆj −βj σbj

∼ T(n−(p+1)).

On déduit de ce corollaire :

des intervalles de confiance de niveau 1−α pourβj.

des procédures de test pour des hypothèses du genreH0j =0 contre H1j 6=0.

(81)

Prévision

On dispose d’une nouvelle observationxn+1= (xn+1,1, . . . ,xn+1,p) et on souhaite prédire la valeur yn+1 =xn+10 β associée à cette nouvelle observation.

Un estimateur (naturel) deyn+1 est yˆn+1=xn+10 β.ˆ

Un intervalle de confiance de niveau 1−α pouryn+1 est donné par

ˆ yn+1

+tn−(p+1)(α/2)ˆσ q

xn+10 (X0X)−1xn+1+1

.

(82)

Prévision

On dispose d’une nouvelle observationxn+1= (xn+1,1, . . . ,xn+1,p) et on souhaite prédire la valeur yn+1 =xn+10 β associée à cette nouvelle observation.

Un estimateur (naturel) deyn+1 est yˆn+1=xn+10 β.ˆ

Un intervalle de confiance de niveau 1−α pouryn+1 est donné par

ˆ yn+1

+tn−(p+1)(α/2)ˆσ q

xn+10 (X0X)−1xn+1+1

.

(83)

Prévision

On dispose d’une nouvelle observationxn+1= (xn+1,1, . . . ,xn+1,p) et on souhaite prédire la valeur yn+1 =xn+10 β associée à cette nouvelle observation.

Un estimateur (naturel) deyn+1 est yˆn+1=xn+10 β.ˆ

Un intervalle de confiance de niveau 1−α pouryn+1 est donné par

ˆ yn+1

+tn−(p+1)(α/2)ˆσ q

xn+10 (X0X)−1xn+1+1

.

(84)

Exemple de l’ozone

On considère le modèle de régression multiple :

MaxO3=β01T122T153N124V125MaxO3v+ε.

> reg.multi <-lm(maxO3~T12+T15+Ne12+Vx12+maxO3v,data=donnees)

>summary(reg.multi) Call:

lm(formula = maxO3 ~ T12 + T15 + Ne12 + Vx12 + maxO3v, data = donnees) Residuals:

Min 1Q Median 3Q Max

-54.216 -9.446 -0.896 8.007 41.186 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 3.04498 13.01591 0.234 0.8155 T12 2.47747 1.09257 2.268 0.0254 * T15 0.63177 0.96382 0.655 0.5136 Ne12 -1.83560 0.89439 -2.052 0.0426 * Vx12 1.33295 0.58168 2.292 0.0239 * maxO3v 0.34215 0.05989 5.713 1.03e-07 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 14.58 on 106 degrees of freedom Multiple R-squared: 0.7444,Adjusted R-squared: 0.7324 F-statistic: 61.75 on 5 and 106 DF, p-value: < 2.2e-16

(85)

"Validation" du modèle

Ajuster un modèle, trouver des estimateurs est un problème relativement "simple".

Le travaildifficileest de trouver un bon modèle, ou encore lemeilleur modèle (ce travail est difficile car la notion de meilleur modèle n’existe pas).

Il est donc nécessaire de trouver des procédures automatiques dechoix de modèles (méthodes pas à pas utilisant un critère de type AIC, BIC, régression lasso etc...)

Puis de vérifier que leshypothèseseffectuées (normalité, linéarité) sont raisonnables(analyse des résidus, tests d’adéquation...).

Références

Documents relatifs

Pour avoir convergence, il faut que le paramètre η soit bien calibré, mais on verra cela plus en détails dans le cours sur la descente de gradient.. Si le jeu de donné est beaucoup

Comme la pond´ eration change avec t, l’algorithme de Newton pour la r´ egression logistique se nomme donc aussi la m´ ethode des “moindres carr´ es pond´ er´ es it´ er´

Le premier jeu de donn´ ees est issu d’un mod` ele o` u les points de chaque classe sont g´ en´ er´ es suivant des loi Gaussiennes de variance commune entre classe mais de

L’ordinateur est capable de faire ce calcul, c’est-à-dire de renvoyer une valeur de a, mais cette méthode est cependant à éviter absolument : d’une part la comparaison visuelle

Si X n’est pas de rang maximum p, la matrice X ⊤ X n’est pas inversible et le problème admet plusieurs solutions qui minimisent le risque empirique. ⇒ le problème est mal posé

Dans les deux premiers tableaux on indique la variable retenue ou éliminée aux différentes étapes de la procédure, on donne les valeurs de RI.^D ainsi que de RI également pour

• On considère les écarts entre la droite et les vrais points : on veut LA droite qui minimise ces écarts au carré :.. Régression non linéaires Régression

Mots clés : Modèle de régression linéaire, sélection bayésienne de variables, loi a priori de Zellner, lois a priori compatibles, modèles hiérarchiques, échantillonneur de