Régression logistique et scoring
L. Rouvière
laurent.rouviere@univ-rennes2.fr
Janvier 2017
Plan du cours
1 Introduction aux GLM
2 Analyse du modèle de régression logistique
3 Sélection-Validation de modèle
4 Quelques modèles logistiques polytomiques
5 Schéma d’échantillonnage rétrospectif
6 Grande dimension : régression logistique pénalisée
7 Introduction au scoring
Première partie I
Introduction aux GLM
1 Modèle statistique Modèle de densité Modèle de régression
Rappels sur le modèle de régression linéaire
2 Introduction au modèle de régression logistique Exemples
Régression logistique simple
3 Le modèle linéaire généralisé Introduction
Définitions
Modèle de Poisson
1 Modèle statistique Modèle de densité Modèle de régression
Rappels sur le modèle de régression linéaire
2 Introduction au modèle de régression logistique Exemples
Régression logistique simple
3 Le modèle linéaire généralisé Introduction
Définitions
Modèle de Poisson
Modèle
Qu’est-ce qu’un modèle ?
Mathématiquement, un modèle est un triplet (H,A,{P,P ∈ P})avec Hest l’espace des observations (l’ensemble de tous les résultats possibles de l’expérience) ;
Aest une tribu surH;
P est une famille de probabilités définie sur (H,A).
A quoi sert un modèle ?
Expliquer, décrire les mécanismes du phénomène considéré.
Question : quel est le lien entre la définition mathématique et l’utilité du phénomène ?
Modèle
Qu’est-ce qu’un modèle ?
Mathématiquement, un modèle est un triplet (H,A,{P,P ∈ P})avec Hest l’espace des observations (l’ensemble de tous les résultats possibles de l’expérience) ;
Aest une tribu surH;
P est une famille de probabilités définie sur (H,A).
A quoi sert un modèle ?
Expliquer, décrire les mécanismes du phénomène considéré.
Question : quel est le lien entre la définition mathématique et l’utilité du phénomène ?
Modèle
Qu’est-ce qu’un modèle ?
Mathématiquement, un modèle est un triplet (H,A,{P,P ∈ P})avec Hest l’espace des observations (l’ensemble de tous les résultats possibles de l’expérience) ;
Aest une tribu surH;
P est une famille de probabilités définie sur (H,A).
A quoi sert un modèle ?
Expliquer, décrire les mécanismes du phénomène considéré.
Question : quel est le lien entre la définition mathématique et l’utilité du phénomène ?
Modèle
Qu’est-ce qu’un modèle ?
Mathématiquement, un modèle est un triplet (H,A,{P,P ∈ P})avec Hest l’espace des observations (l’ensemble de tous les résultats possibles de l’expérience) ;
Aest une tribu surH;
P est une famille de probabilités définie sur (H,A).
A quoi sert un modèle ?
Expliquer, décrire les mécanismes du phénomène considéré.
Question : quel est le lien entre la définition mathématique et l’utilité du phénomène ?
Modèle
Qu’est-ce qu’un modèle ?
Mathématiquement, un modèle est un triplet (H,A,{P,P ∈ P})avec Hest l’espace des observations (l’ensemble de tous les résultats possibles de l’expérience) ;
Aest une tribu surH;
P est une famille de probabilités définie sur (H,A).
A quoi sert un modèle ?
Expliquer, décrire les mécanismes du phénomène considéré.
Question : quel est le lien entre la définition mathématique et l’utilité du phénomène ?
1 Modèle statistique Modèle de densité Modèle de régression
Rappels sur le modèle de régression linéaire
2 Introduction au modèle de régression logistique Exemples
Régression logistique simple
3 Le modèle linéaire généralisé Introduction
Définitions
Modèle de Poisson
Exemple 1
On souhaite tester l’efficacité d’un nouveau traitement à l’aide d’un essai clinique.
On traiten =100 patients atteints de la pathologie.
A l’issue de l’étude, 72 patients sont guéris.
Soitp0 la probabilité de guérison suite au traitement en question.
On est tentés de conclurep0 ≈0.72.
Un tel résultat n’a cependant guère d’intêret si on n’est pas capable de préciser l’erreur susceptible d’être commise par cette estimation.
Exemple 1
On souhaite tester l’efficacité d’un nouveau traitement à l’aide d’un essai clinique.
On traiten =100 patients atteints de la pathologie.
A l’issue de l’étude, 72 patients sont guéris.
Soitp0 la probabilité de guérison suite au traitement en question.
On est tentés de conclurep0 ≈0.72.
Un tel résultat n’a cependant guère d’intêret si on n’est pas capable de préciser l’erreur susceptible d’être commise par cette estimation.
Exemple 2
On s’intéresse au nombre de mails reçus par jour par un utilisateur pendant 36 journées.
¯
x =5.22,Sn2 =5.72.
051015
Diagramme en bâtons
Nb mails
frequence
1 3 5 7 9 11
Histogramme
mails
Density
0 2 4 6 8 10 12
0.000.050.100.15
Quelle est la probabilité de recevoir plus de 5 mails dans une journée ?
Exemple 2
On s’intéresse au nombre de mails reçus par jour par un utilisateur pendant 36 journées.
¯
x =5.22,Sn2 =5.72.
051015
Diagramme en bâtons
Nb mails
frequence
1 3 5 7 9 11
Histogramme
mails
Density
0 2 4 6 8 10 12
0.000.050.100.15
Quelle est la probabilité de recevoir plus de 5 mails dans une journée ?
Exemple 3
Durée de trajet domicile-travail.
On dispose den=100 mesures :x¯=25.1,Sn2=14.46.
Histogramme
trajet
Density
20 25 30
0.000.020.040.060.080.10
J’ai une réunion à 8h30, quelle est la probabilité que j’arrive en retard si je pars de chez moi à 7h55 ?
Exemple 3
Durée de trajet domicile-travail.
On dispose den=100 mesures :x¯=25.1,Sn2=14.46.
Histogramme
trajet
Density
20 25 30
0.000.020.040.060.080.10
J’ai une réunion à 8h30, quelle est la probabilité que j’arrive en retard si je pars de chez moi à 7h55 ?
Problème
Nécessité de se dégager des observationsx1, . . . ,xn pour répondre à de telles questions.
Si on mesure la durée du trajet pendant 100 nouveaux jours, on peut en effet penser que les nouvelles observations ne seront pas
exactement les mêmes que les anciennes.
Idée
Considérer que les n valeurs observées x1, . . . ,xn sont des réalisations de variables aléatoiresX1, . . . ,Xn.
Attention
Xi est une variable aléatoire etxi est une réalisation de cette variable, c’est-à-dire un nombre !
Problème
Nécessité de se dégager des observationsx1, . . . ,xn pour répondre à de telles questions.
Si on mesure la durée du trajet pendant 100 nouveaux jours, on peut en effet penser que les nouvelles observations ne seront pas
exactement les mêmes que les anciennes.
Idée
Considérer que les n valeurs observées x1, . . . ,xn sont des réalisations de variables aléatoiresX1, . . . ,Xn.
Attention
Xi est une variable aléatoire etxi est une réalisation de cette variable, c’est-à-dire un nombre !
Problème
Nécessité de se dégager des observationsx1, . . . ,xn pour répondre à de telles questions.
Si on mesure la durée du trajet pendant 100 nouveaux jours, on peut en effet penser que les nouvelles observations ne seront pas
exactement les mêmes que les anciennes.
Idée
Considérer que les n valeurs observées x1, . . . ,xn sont des réalisations de variables aléatoiresX1, . . . ,Xn.
Attention
Xi est une variable aléatoire etxi est une réalisation de cette variable, c’est-à-dire un nombre !
Variables aléatoires
Définition
Unevariable aléatoire réelle est une application X : (Ω,A)→(R,B(R))
telle que
∀B∈ B(R),X−1(B)∈ A.
Lors de la modélisation statistique, l’espaceΩ n’est généralement jamais caractérisé.
Il contient tous les "phénoménes" pouvant expliquer les sources d’aléa (qui ne sont pas explicables...).
En pratique, l’espace d’arrivée est généralement suffisant.
Variables aléatoires
Définition
Unevariable aléatoire réelle est une application X : (Ω,A)→(R,B(R))
telle que
∀B∈ B(R),X−1(B)∈ A.
Lors de la modélisation statistique, l’espaceΩ n’est généralement jamais caractérisé.
Il contient tous les "phénoménes" pouvant expliquer les sources d’aléa (qui ne sont pas explicables...).
En pratique, l’espace d’arrivée est généralement suffisant.
Variables aléatoires
Définition
Unevariable aléatoire réelle est une application X : (Ω,A)→(R,B(R))
telle que
∀B∈ B(R),X−1(B)∈ A.
Lors de la modélisation statistique, l’espaceΩ n’est généralement jamais caractérisé.
Il contient tous les "phénoménes" pouvant expliquer les sources d’aléa (qui ne sont pas explicables...).
En pratique, l’espace d’arrivée est généralement suffisant.
Loi de probabilité
Loi de probabilité
Etant donnée Pune probabilité sur (Ω,A) etX une variable aléatoire réelle définie sur Ω, on appelle loi de probabilité deX la mesure PX définie par PX(B) =P(X−1(B)) =P(X ∈B) =P({ω∈Ω :X(ω)∈B}) ∀B ∈ B(R).
Une loi de probabilité est caractérisée par
sa fonction de répartition :FX(x) =P(X ≤x).
sa densité : fx :R→R+ telle que ∀B ∈ B(R) PX(B) =
Z
B
fX(x)dx.
Loi de probabilité
Loi de probabilité
Etant donnée Pune probabilité sur (Ω,A) etX une variable aléatoire réelle définie sur Ω, on appelle loi de probabilité deX la mesure PX définie par PX(B) =P(X−1(B)) =P(X ∈B) =P({ω∈Ω :X(ω)∈B}) ∀B ∈ B(R).
Une loi de probabilité est caractérisée par
sa fonction de répartition :FX(x) =P(X ≤x).
sa densité : fx :R→R+ telle que ∀B ∈ B(R) PX(B) =
Z
B
fX(x)dx.
Un modèle pour l’exemple 1
On note xi =1 si le ième patient a guéri, 0 sinon.
On peut supposer quexi est la réalisation d’une variable aléatoireXi de loi de bernoulli de paramètre p0.
Si les individus sont choisis de manière indépendanteet ont tous la même probabilité de guérir(ce qui peut revenir à dire qu’ils en sont au même stade de la pathologie), il est alors raisonnable de supposer que les variables aléatoires X1, . . . ,Xn sont indépendantes et de même loi (i.i.d.).
On dit que X1, . . . ,Xn est un n-échantillonde variables aléatoires indépendantes de même loi B(p0).
Un modèle pour l’exemple 1
On note xi =1 si le ième patient a guéri, 0 sinon.
On peut supposer quexi est la réalisation d’une variable aléatoireXi de loi de bernoulli de paramètre p0.
Si les individus sont choisis de manière indépendanteet ont tous la même probabilité de guérir(ce qui peut revenir à dire qu’ils en sont au même stade de la pathologie), il est alors raisonnable de supposer que les variables aléatoires X1, . . . ,Xn sont indépendantes et de même loi (i.i.d.).
On dit que X1, . . . ,Xn est un n-échantillonde variables aléatoires indépendantes de même loi B(p0).
Un modèle pour l’exemple 1
On note xi =1 si le ième patient a guéri, 0 sinon.
On peut supposer quexi est la réalisation d’une variable aléatoireXi de loi de bernoulli de paramètre p0.
Si les individus sont choisis de manière indépendanteet ont tous la même probabilité de guérir(ce qui peut revenir à dire qu’ils en sont au même stade de la pathologie), il est alors raisonnable de supposer que les variables aléatoires X1, . . . ,Xn sont indépendantes et de même loi (i.i.d.).
On dit que X1, . . . ,Xn est un n-échantillonde variables aléatoires indépendantes de même loi B(p0).
Définitions
Modèle
On appelle modèle statistiquetout triplet(H,A,P) où
Hest l’espace des observations (l’ensemble de tous les résultats possibles de l’expérience) ;
Aest une tribu surH;
P est une famille de probabilités définie sur (H,A).
Le problème du statisticien
n variables aléatoires i.i.d.X1, . . . ,Xn de loi P.
Trouver une famille de loisP susceptible de contenirP.
Trouver dans P une loi qui soitla plus prochedeP
Définitions
Modèle
On appelle modèle statistiquetout triplet(H,A,P) où
Hest l’espace des observations (l’ensemble de tous les résultats possibles de l’expérience) ;
Aest une tribu surH;
P est une famille de probabilités définie sur (H,A).
Le problème du statisticien
n variables aléatoires i.i.d.X1, . . . ,Xn de loi P.
Trouver une famille de loisP susceptible de contenirP.
Trouver dans P une loi qui soitla plus prochedeP
Exemples
H A P
Exemple 1 {0,1} P({0,1}) {B(p),p ∈[0,1]}
Exemple 2 N P(N) {P(λ),λ>0}
Exemple 3 R B(R) {N(µ,σ2),µ∈R,σ∈R+}
Paramétrique versus non paramétrique
Définition
SiP ={Pθ, θ∈Θ} où Θ∈Rd alors on parle demodèle paramétrique et Θest l’espace des paramètres.
SiP ={P,P∈ F }où F est de dimension infinie, on parle demodèle non paramétrique.
Exemple : modèle de densité
P ={N(µ, σ2),(µ, σ2)∈R×R+}est un modèle paramétrique.
P ={densitésf 2 fois dérivables}est un modèle non paramétrique.
Le problème sera d’estimer(µ, σ2)ou f à partir de l’échantillon X1, . . . ,Xn.
Paramétrique versus non paramétrique
Définition
SiP ={Pθ, θ∈Θ} où Θ∈Rd alors on parle demodèle paramétrique et Θest l’espace des paramètres.
SiP ={P,P∈ F }où F est de dimension infinie, on parle demodèle non paramétrique.
Exemple : modèle de densité
P ={N(µ, σ2),(µ, σ2)∈R×R+}est un modèle paramétrique.
P ={densitésf 2 fois dérivables}est un modèle non paramétrique.
Le problème sera d’estimer(µ, σ2)ou f à partir de l’échantillon X1, . . . ,Xn.
Paramétrique versus non paramétrique
Définition
SiP ={Pθ, θ∈Θ} où Θ∈Rd alors on parle demodèle paramétrique et Θest l’espace des paramètres.
SiP ={P,P∈ F }où F est de dimension infinie, on parle demodèle non paramétrique.
Exemple : modèle de densité
P ={N(µ, σ2),(µ, σ2)∈R×R+}est un modèle paramétrique.
P ={densitésf 2 fois dérivables}est un modèle non paramétrique.
Le problème sera d’estimer(µ, σ2)ou f à partir de l’échantillon X1, . . . ,Xn.
Paramétrique versus non paramétrique
Définition
SiP ={Pθ, θ∈Θ} où Θ∈Rd alors on parle demodèle paramétrique et Θest l’espace des paramètres.
SiP ={P,P∈ F }où F est de dimension infinie, on parle demodèle non paramétrique.
Exemple : modèle de densité
P ={N(µ, σ2),(µ, σ2)∈R×R+}est un modèle paramétrique.
P ={densitésf 2 fois dérivables}est un modèle non paramétrique.
Le problème sera d’estimer(µ, σ2)ou f à partir de l’échantillon X1, . . . ,Xn.
1 Modèle statistique Modèle de densité Modèle de régression
Rappels sur le modèle de régression linéaire
2 Introduction au modèle de régression logistique Exemples
Régression logistique simple
3 Le modèle linéaire généralisé Introduction
Définitions
Modèle de Poisson
Modèle de régression
On cherche à expliquer une variableY par p variables explicatives X1, . . . ,Xp. On dispose d’unn échantillon i.i.d. (Xi,Yi),i =1, . . . ,n.
Modèle linéaire (paramétrique) On pose
Y =β0+β1X1+. . .+βpXp+ε où ε∼ N(0, σ2).
Le problème est d’estimer β= (β0, . . . , βp)∈Rp+1 à l’aide de (X1,Y1), . . . ,(Xn,Yn).
Un modèle non paramétrique On pose
Y =m(X1, . . . ,Xp) +ε où m:Rp→Rest une fonction continue.
Le problème est d’estimer m à l’aide de(X1,Y1), . . . ,(Xn,Yn).
Modèle de régression
On cherche à expliquer une variableY par p variables explicatives X1, . . . ,Xp. On dispose d’unn échantillon i.i.d. (Xi,Yi),i =1, . . . ,n.
Modèle linéaire (paramétrique) On pose
Y =β0+β1X1+. . .+βpXp+ε où ε∼ N(0, σ2).
Le problème est d’estimer β= (β0, . . . , βp)∈Rp+1 à l’aide de (X1,Y1), . . . ,(Xn,Yn).
Un modèle non paramétrique On pose
Y =m(X1, . . . ,Xp) +ε où m:Rp→Rest une fonction continue.
Le problème est d’estimer m à l’aide de(X1,Y1), . . . ,(Xn,Yn).
Modèle de régression
On cherche à expliquer une variableY par p variables explicatives X1, . . . ,Xp. On dispose d’unn échantillon i.i.d. (Xi,Yi),i =1, . . . ,n.
Modèle linéaire (paramétrique) On pose
Y =β0+β1X1+. . .+βpXp+ε où ε∼ N(0, σ2).
Le problème est d’estimer β= (β0, . . . , βp)∈Rp+1 à l’aide de (X1,Y1), . . . ,(Xn,Yn).
Un modèle non paramétrique On pose
Y =m(X1, . . . ,Xp) +ε où m:Rp→Rest une fonction continue.
Le problème est d’estimer m à l’aide de(X1,Y1), . . . ,(Xn,Yn).
2 types d’erreur
Poser un modèle revient à choisir une famille de loi candidates pour reconstruire la loi des donnéesP.
Pˆ
P P
On distingue deux types d’erreurs :
Erreur d’estimation : erreur commise par le choix d’une loi dansP par rapport au meilleur choix.
Erreur d’approximation: erreur commise par le choix deP.
2 types d’erreur
Poser un modèle revient à choisir une famille de loi candidates pour reconstruire la loi des donnéesP.
Pˆ
P P
On distingue deux types d’erreurs :
Erreur d’estimation : erreur commise par le choix d’une loi dansP par rapport au meilleur choix.
Erreur d’approximation: erreur commise par le choix deP.
La modélisation
1 On récolten observations (n valeurs) x1, . . . ,xn qui sont le résultats den expériences aléatoires indépendantes.
2 Modélisation : onsuppose que lesn valeurs sont des réalisations den variables aléatoires indépendantesX1, . . . ,Xn et de même loiPθ0.
3 Estimation : chercher dans le modèle une loi Pθˆqui soit le plus proche possible dePθ0 =⇒ chercher unestimateurθˆdeθ0.
4 "Validation” de modèle : on revient en arrière et on tente de vérifier si l’hypothèse de l’étape 2 est raisonnable (test d’adéquation, etc...)
La modélisation
1 On récolten observations (n valeurs) x1, . . . ,xn qui sont le résultats den expériences aléatoires indépendantes.
2 Modélisation : onsuppose que lesn valeurs sont des réalisations den variables aléatoires indépendantesX1, . . . ,Xn et de même loiPθ0.
3 Estimation : chercher dans le modèle une loi Pθˆqui soit le plus proche possible dePθ0 =⇒ chercher unestimateurθˆdeθ0.
4 "Validation” de modèle : on revient en arrière et on tente de vérifier si l’hypothèse de l’étape 2 est raisonnable (test d’adéquation, etc...)
La modélisation
1 On récolten observations (n valeurs) x1, . . . ,xn qui sont le résultats den expériences aléatoires indépendantes.
2 Modélisation : onsuppose que lesn valeurs sont des réalisations den variables aléatoires indépendantesX1, . . . ,Xn et de même loiPθ0.
3 Estimation : chercher dans le modèle une loi Pθˆqui soit le plus proche possible dePθ0 =⇒ chercher unestimateurθˆdeθ0.
4 "Validation” de modèle : on revient en arrière et on tente de vérifier si l’hypothèse de l’étape 2 est raisonnable (test d’adéquation, etc...)
La modélisation
1 On récolten observations (n valeurs) x1, . . . ,xn qui sont le résultats den expériences aléatoires indépendantes.
2 Modélisation : onsuppose que lesn valeurs sont des réalisations den variables aléatoires indépendantesX1, . . . ,Xn et de même loiPθ0.
3 Estimation : chercher dans le modèle une loi Pθˆqui soit le plus proche possible dePθ0 =⇒ chercher unestimateurθˆdeθ0.
4 "Validation” de modèle : on revient en arrière et on tente de vérifier si l’hypothèse de l’étape 2 est raisonnable (test d’adéquation, etc...)
1 Modèle statistique Modèle de densité Modèle de régression
Rappels sur le modèle de régression linéaire
2 Introduction au modèle de régression logistique Exemples
Régression logistique simple
3 Le modèle linéaire généralisé Introduction
Définitions
Modèle de Poisson
Le problème de régression
On cherche à expliquer une variableY par p variablesX1, . . . ,Xp. Il s’agit de trouver une fonction m:Rp →Rtelle que
Y ≈m(X1, . . . ,Xp).
Sauf cas (très) particulier, le lien n’est jamais "parfait"
Y =m(X1, . . . ,Xp) +ε.
Modèle de régression
Poser un modèle de régression revient à supposer que la fonctionm appartient à un certain espaceM.
Le problème du statisticien sera alors de trouver la "meilleure" fonction dansMà l’aide d’unn-échantillon i.i.d. (X1,Y1), . . . ,(Xn,Yn).
Le problème de régression
On cherche à expliquer une variableY par p variablesX1, . . . ,Xp. Il s’agit de trouver une fonction m:Rp →Rtelle que
Y ≈m(X1, . . . ,Xp).
Sauf cas (très) particulier, le lien n’est jamais "parfait"
Y =m(X1, . . . ,Xp) +ε.
Modèle de régression
Poser un modèle de régression revient à supposer que la fonctionm appartient à un certain espaceM.
Le problème du statisticien sera alors de trouver la "meilleure" fonction dansMà l’aide d’unn-échantillon i.i.d. (X1,Y1), . . . ,(Xn,Yn).
Le problème de régression
On cherche à expliquer une variableY par p variablesX1, . . . ,Xp. Il s’agit de trouver une fonction m:Rp →Rtelle que
Y ≈m(X1, . . . ,Xp).
Sauf cas (très) particulier, le lien n’est jamais "parfait"
Y =m(X1, . . . ,Xp) +ε.
Modèle de régression
Poser un modèle de régression revient à supposer que la fonctionm appartient à un certain espaceM.
Le problème du statisticien sera alors de trouver la "meilleure" fonction dansMà l’aide d’unn-échantillon i.i.d. (X1,Y1), . . . ,(Xn,Yn).
Le problème de régression
On cherche à expliquer une variableY par p variablesX1, . . . ,Xp. Il s’agit de trouver une fonction m:Rp →Rtelle que
Y ≈m(X1, . . . ,Xp).
Sauf cas (très) particulier, le lien n’est jamais "parfait"
Y =m(X1, . . . ,Xp) +ε.
Modèle de régression
Poser un modèle de régression revient à supposer que la fonctionm appartient à un certain espaceM.
Le problème du statisticien sera alors de trouver la "meilleure" fonction dansMà l’aide d’unn-échantillon i.i.d. (X1,Y1), . . . ,(Xn,Yn).
Exemple de modèles
Modèle non paramétrique
L’espace Mest de dimension infinie.
Exemple : On poseY =m(X1, . . . ,Xp) +εoù mappartient à l’espace des fonctions continues.
Modèle paramétrique
L’espace Mest de dimension finie.
Exemple : on suppose que la fonctionm est linéaire Y =β0+β1X1+. . .+βpXp+ε.
Le problème est alors d’estimerβ = (β0, β1, . . . , βp) à l’aide de (X1,Y1), . . . ,(Xn,Yn).
C’est le modèle de régression linéaire.
Exemple de modèles
Modèle non paramétrique
L’espace Mest de dimension infinie.
Exemple : On poseY =m(X1, . . . ,Xp) +εoù mappartient à l’espace des fonctions continues.
Modèle paramétrique
L’espace Mest de dimension finie.
Exemple : on suppose que la fonctionm est linéaire Y =β0+β1X1+. . .+βpXp+ε.
Le problème est alors d’estimerβ = (β0, β1, . . . , βp) à l’aide de (X1,Y1), . . . ,(Xn,Yn).
C’est le modèle de régression linéaire.
Exemple
On cherche à expliquerou àprédirela concentration en ozone.
On dispose den =112 observations de la concentration en ozone ainsi que de 12 autres variables susceptibles d’expliquer cette
concentration :
Température relevée à différents moments de la journée.
Indice de nébulosité relevé à différents moments de la journée.
Direction du vent.
Pluie.
Question
Comment expliquer (modéliser) la concentration en ozone à l’aide de toutes ces variables ?
Exemple
On cherche à expliquerou àprédirela concentration en ozone.
On dispose den =112 observations de la concentration en ozone ainsi que de 12 autres variables susceptibles d’expliquer cette
concentration :
Température relevée à différents moments de la journée.
Indice de nébulosité relevé à différents moments de la journée.
Direction du vent.
Pluie.
Question
Comment expliquer (modéliser) la concentration en ozone à l’aide de toutes ces variables ?
Ozone en fonction de la température à 12h ?
MaxO3 87 82 92 114 94 80 . . .
T12 18.5 18.4 17.6 19.7 20.5 19.8 . . .
Ozone en fonction de la température à 12h ?
MaxO3 87 82 92 114 94 80 . . .
T12 18.5 18.4 17.6 19.7 20.5 19.8 . . .
●
●
●
●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
15 20 25 30
406080100120140160
T12
maxO3
Ozone en fonction de la température à 12h ?
MaxO3 87 82 92 114 94 80 . . .
T12 18.5 18.4 17.6 19.7 20.5 19.8 . . .
●
●
●
●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
15 20 25 30
406080100120140160
T12
maxO3
Ozone en fonction de la température à 12h ?
MaxO3 87 82 92 114 94 80 . . .
T12 18.5 18.4 17.6 19.7 20.5 19.8 . . .
●
●
●
●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
15 20 25 30
406080100120140160
T12
maxO3
Comment ajuster le nuage de points ?
Ozone en fonction du vent ?
MaxO3 87 82 92 114 94 80 . . .
Vent Nord Nord Est Nord Ouest Ouest . . .
Ozone en fonction du vent ?
MaxO3 87 82 92 114 94 80 . . .
Vent Nord Nord Est Nord Ouest Ouest . . .
●
●
●
●
●
●
●
●
●
Est Nord Ouest Sud
406080100120140160
vent
maxO3
Ozone en fonction du vent ?
MaxO3 87 82 92 114 94 80 . . .
Vent Nord Nord Est Nord Ouest Ouest . . .
●
●
●
●
●
●
●
●
●
Est Nord Ouest Sud
406080100120140160
vent
maxO3
MaxO3≈α11Vent=est+. . .+α41Vent=sud. αj =???
Ozone en fonction de la température à 12h et du vent ?
T12
maxO3
50 100 150
15 20 25 30
●
●
●
●
●
●
● ●
●● Est
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●
●
● ●●
●
●
●
●
●
●●
●
●
●
● Nord
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● Ouest
15 20 25 30
50 100 150
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
● Sud
maxO3≈
β01+β11T12 si vent=est
... ...
β04+β14T12 si vent=ouest
Ozone en fonction de la température à 12h et du vent ?
T12
maxO3
50 100 150
15 20 25 30
●
●
●
●
●
●
● ●
●● Est
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●
●
● ●●
●
●
●
●
●
●●
●
●
●
● Nord
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● Ouest
15 20 25 30
50 100 150
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
● Sud
maxO3≈
β01+β11T12 si vent=est
... ...
β04+β14T12 si vent=ouest
Autre modélisation
Généralisation
maxO3≈β0+β1V1+. . .+β12V12
Questions
Comment calculer (ou plutôt estimer) les paramètres βj?
Le modèle avec les 12 variables est-il "meilleur" que des modèles avec moins de variables ?
Comment trouver le "meilleur" sous-groupe de variables ?
Autre modélisation
Généralisation
maxO3≈β0+β1V1+. . .+β12V12
Questions
Comment calculer (ou plutôt estimer) les paramètres βj?
Le modèle avec les 12 variables est-il "meilleur" que des modèles avec moins de variables ?
Comment trouver le "meilleur" sous-groupe de variables ?
Notations
Y : variable (aléatoire) à expliquer à valeurs dansR. X1, . . . ,Xp :p variables explicatives à valeurs dansR. n observations (x1,Y1), . . . ,(xn,Yn) avecxi = (xi1, . . . ,xip).
Le modèle de régression linéaire multiple Le modèle s’écrit :
Yi =β0+β1xi1+. . .+βpxip+εi
où les erreurs aléatoires εi sont i.i.d. de loiN(0, σ2).
Notations
Y : variable (aléatoire) à expliquer à valeurs dansR. X1, . . . ,Xp :p variables explicatives à valeurs dansR. n observations (x1,Y1), . . . ,(xn,Yn) avecxi = (xi1, . . . ,xip).
Le modèle de régression linéaire multiple Le modèle s’écrit :
Yi =β0+β1xi1+. . .+βpxip+εi
où les erreurs aléatoires εi sont i.i.d. de loiN(0, σ2).
Ecriture matricielle
On note
Y=
Y1
... Yn
, X=
1 x11 . . . x1p
... ... ... 1 xn1 . . . xnp
, β=
β0
... βp
, ε=
ε1
... εn
Ecriture matricielle Le modèle se réécrit
Y=Xβ+ε où ε∼ N(0, σ2In).
Ecriture matricielle
On note
Y=
Y1
... Yn
, X=
1 x11 . . . x1p
... ... ... 1 xn1 . . . xnp
, β=
β0
... βp
, ε=
ε1
... εn
Ecriture matricielle Le modèle se réécrit
Y=Xβ+ε où ε∼ N(0, σ2In).
Estimateurs des moindres carrés
Définition
On appelle estimateur des moindres carrésβˆ deβ la statistique suivante :
βˆ=argmin
β0,...,βp
n
X
i=1
(Yi −β0−β1xi1−. . . βpxip)2 =argmin
β∈Rp+1
kY−Xβk2.
On note F(X) le s.e.v. deRn de dimension p+1 engendré par les p+1 colonnes de X.
Chercher l’estimateur des moindres carrés revient à minimiser la distance entreY∈Rnet F(X).
Représentation géométrique
F(X)
Y
Yˆ=Xβˆ
Expression de l’estimateur des moindres carrés
On déduit que Xβˆest le projeté orthogonal deYsur F(X) : Xβˆ=PF(X)(Y) =X(X0X)−1X0Y.
Théorème
Si la matriceX est de plein rang, l’estimateur des MC est donné par : βˆ= (X0X)−1X0Y.
Expression de l’estimateur des moindres carrés
On déduit que Xβˆest le projeté orthogonal deYsur F(X) : Xβˆ=PF(X)(Y) =X(X0X)−1X0Y.
Théorème
Si la matriceX est de plein rang, l’estimateur des MC est donné par : βˆ= (X0X)−1X0Y.
Expression de l’estimateur des moindres carrés
On déduit que Xβˆest le projeté orthogonal deYsur F(X) : Xβˆ=PF(X)(Y) =X(X0X)−1X0Y.
Théorème
Si la matriceX est de plein rang, l’estimateur des MC est donné par : βˆ= (X0X)−1X0Y.
Propriété
1 βˆ est un estimateur sans biais deβ.
2 La matrice de variance-covariance de βˆest donnée par V( ˆβ) =σ2(X0X)−1.
3 βˆ est VUMSB.
Loi des estimateurs
Soitεˆ=Y−Yˆ le vecteur des résidus et cσ2 l’estimateur de σ2 défini par
cσ2= kˆεk2 n−(p+1). Proposition
1 βˆ est un vecteur gaussien d’espéranceβ et de matrice de variance-covariance σ2(X0X)−1.
2 (n−(p+1))σσc22 ∼χ2n−(p+1).
3 βˆ etcσ2 sont indépendantes.
Loi des estimateurs
Soitεˆ=Y−Yˆ le vecteur des résidus et cσ2 l’estimateur de σ2 défini par
cσ2= kˆεk2 n−(p+1). Proposition
1 βˆ est un vecteur gaussien d’espéranceβ et de matrice de variance-covariance σ2(X0X)−1.
2 (n−(p+1))σσc22 ∼χ2n−(p+1).
3 βˆ etcσ2 sont indépendantes.
Loi des estimateurs
Soitεˆ=Y−Yˆ le vecteur des résidus et cσ2 l’estimateur de σ2 défini par
cσ2= kˆεk2 n−(p+1). Proposition
1 βˆ est un vecteur gaussien d’espéranceβ et de matrice de variance-covariance σ2(X0X)−1.
2 (n−(p+1))σσc22 ∼χ2n−(p+1).
3 βˆ etcσ2 sont indépendantes.
Intervalles de confiance et tests
Corollaire
On note cσj2 =cσ2[X0X]−1jj pourj =0, . . . ,p. On a
∀j =0, . . . ,p, βˆj −βj σbj
∼ T(n−(p+1)).
On déduit de ce corollaire :
des intervalles de confiance de niveau 1−α pourβj.
des procédures de test pour des hypothèses du genreH0:βj =0 contre H1 :βj 6=0.
Intervalles de confiance et tests
Corollaire
On note cσj2 =cσ2[X0X]−1jj pourj =0, . . . ,p. On a
∀j =0, . . . ,p, βˆj −βj σbj
∼ T(n−(p+1)).
On déduit de ce corollaire :
des intervalles de confiance de niveau 1−α pourβj.
des procédures de test pour des hypothèses du genreH0:βj =0 contre H1 :βj 6=0.
Prévision
On dispose d’une nouvelle observationxn+1= (xn+1,1, . . . ,xn+1,p) et on souhaite prédire la valeur yn+1 =xn+10 β associée à cette nouvelle observation.
Un estimateur (naturel) deyn+1 est yˆn+1=xn+10 β.ˆ
Un intervalle de confiance de niveau 1−α pouryn+1 est donné par
ˆ yn+1
−
+tn−(p+1)(α/2)ˆσ q
xn+10 (X0X)−1xn+1+1
.
Prévision
On dispose d’une nouvelle observationxn+1= (xn+1,1, . . . ,xn+1,p) et on souhaite prédire la valeur yn+1 =xn+10 β associée à cette nouvelle observation.
Un estimateur (naturel) deyn+1 est yˆn+1=xn+10 β.ˆ
Un intervalle de confiance de niveau 1−α pouryn+1 est donné par
ˆ yn+1
−
+tn−(p+1)(α/2)ˆσ q
xn+10 (X0X)−1xn+1+1
.
Prévision
On dispose d’une nouvelle observationxn+1= (xn+1,1, . . . ,xn+1,p) et on souhaite prédire la valeur yn+1 =xn+10 β associée à cette nouvelle observation.
Un estimateur (naturel) deyn+1 est yˆn+1=xn+10 β.ˆ
Un intervalle de confiance de niveau 1−α pouryn+1 est donné par
ˆ yn+1
−
+tn−(p+1)(α/2)ˆσ q
xn+10 (X0X)−1xn+1+1
.
Exemple de l’ozone
On considère le modèle de régression multiple :
MaxO3=β0+β1T12+β2T15+β3N12+β4V12+β5MaxO3v+ε.
> reg.multi <-lm(maxO3~T12+T15+Ne12+Vx12+maxO3v,data=donnees)
>summary(reg.multi) Call:
lm(formula = maxO3 ~ T12 + T15 + Ne12 + Vx12 + maxO3v, data = donnees) Residuals:
Min 1Q Median 3Q Max
-54.216 -9.446 -0.896 8.007 41.186 Coefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept) 3.04498 13.01591 0.234 0.8155 T12 2.47747 1.09257 2.268 0.0254 * T15 0.63177 0.96382 0.655 0.5136 Ne12 -1.83560 0.89439 -2.052 0.0426 * Vx12 1.33295 0.58168 2.292 0.0239 * maxO3v 0.34215 0.05989 5.713 1.03e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 14.58 on 106 degrees of freedom Multiple R-squared: 0.7444,Adjusted R-squared: 0.7324 F-statistic: 61.75 on 5 and 106 DF, p-value: < 2.2e-16
"Validation" du modèle
Ajuster un modèle, trouver des estimateurs est un problème relativement "simple".
Le travaildifficileest de trouver un bon modèle, ou encore lemeilleur modèle (ce travail est difficile car la notion de meilleur modèle n’existe pas).
Il est donc nécessaire de trouver des procédures automatiques dechoix de modèles (méthodes pas à pas utilisant un critère de type AIC, BIC, régression lasso etc...)
Puis de vérifier que leshypothèseseffectuées (normalité, linéarité) sont raisonnables(analyse des résidus, tests d’adéquation...).