• Aucun résultat trouvé

chazard_test_nullite..>

N/A
N/A
Protected

Academic year: 2022

Partager "chazard_test_nullite..>"

Copied!
17
0
0

Texte intégral

(1)

Tester l’association linéaire entre deux variables

quantitatives : corrélation,

régression linéaire simple

(2)

Introduction

Etudier la relation bivariée, entre deux variables

quantitatives X et Y, mesurées sur les mêmes individus

Exemples :

Phénomènes différents mesurées chez les mêmes individus : poids et taille

Mesures successives d’un même phénomène : pression artérielle le matin et le soir

Etude de la variabilité inter-opérateur :

mesure de pression artérielle par l’infirmière X et l’infirmière Y

Questions :

Sont-elles indépendantes, en relation linéaire, ou +/- associées ?

Varient-elles dans le même sens ou non ?

(3)

Rappel sur la Covariance Exemples : poids et taille

1 point =

1 individu i {x

i

,y

i

}

Y=Poids

X=Taille

ത 𝑦

ҧ𝑥

Ecart de la taille à la moyenne 𝑥𝑖 − ҧ𝑥

Ecart du poids à la moyenne 𝑦𝑖 − ത𝑦

Y=Poids

X=Taille

ത 𝑦

ҧ𝑥

Valeurs du produit

(𝑥𝑖− ҧ𝑥). (𝑦𝑖− ത𝑦) pour chaque individu i (NB : nul sur les lignes des moyennes)

+ +

-

-

=> Dans ce cas, la moyenne de ce produit devrait être

nettement positive.

(4)

Rappel sur la Covariance Autres exemples

Y = montants des aides sociales perçues (€)

X = revenus du travail (€)

Y

X

Fortement négative

Variables : Graphique : Valeur de

𝑚𝑜𝑦𝑒𝑛𝑛𝑒[(𝑥

𝑖

− ҧ𝑥). (𝑦

𝑖

− ത 𝑦)]

Y = distance travail (km) X = taille (cm)

Y

Nulle

(5)

Rappel sur la Covariance Calcul dans un échantillon

Covariance sur l’échantillon (empirique), avec une ligne pour chacun des n individus i :

𝑐𝑜𝑣

𝑒𝑐ℎ

𝑋, 𝑌

= σ

𝑖=1𝑛

𝑥

𝑖

− ҧ 𝑥 . 𝑦

𝑖

− ത 𝑦 𝑛

= (෍

𝑖=1 𝑛

𝑥

𝑖

. 𝑦

𝑖

)/𝑛 − ҧ 𝑥. ത 𝑦

Calcul analogue à l’estimateur biaisé de la variance :

𝑐𝑜𝑣

𝑒𝑐ℎ

𝑋, 𝑋 = 𝑣𝑎𝑟

𝑒𝑐ℎ

𝑋 = 𝑠²

𝑒𝑐ℎ

𝑋

(6)

Rappel sur le Coefficient de corrélation linéaire de Pearson

Définition

Coefficient insensible aux ordres de grandeur contrairement à la covariance

Coefficient théorique de corrélation linéaire dans la population (rhô) : ρ

Coefficient empirique de corrélation linéaire dans un échantillon :

Attention : utiliser les estimateurs biaisés des écarts types

Varie entre -1 et 1

ech Y ech X

ech

s s

Y r X

.

) , (

= cov

(7)

Rappel sur le Coefficient de corrélation linéaire de Pearson

Interprétation

En population :

Absence de relation linéaire entre X et Y ρ=0

X et Y indépendantes ρ=0

Y=aX+b (relation strictement linéaire a≠0) ρ=1 si a>0 ou -1 si a<0

X et Y corrélées linéairement

dans le même sens ρ ]0 ; 1]

en sens contraire ρ [-1 ; 0[

fortement |ρ|  [0,5 ; 1]

faiblement |ρ|  ]0 ; 0,5[

Sur l’échantillon :

idem, en tenant compte des fluctuations liées à l’échantillonnage

ATTENTION : ρ=0 signifie absence de relation linéaire, mais ρ=0 ne signifie pas toujours indépendance !

Exemples de nuages de points

avec ρ=0 mais X et Y non indépendantes :

(8)

Tester l’absence de relation linéaire entre deux variables quantitatives

Dans un échantillon

Taille n

Observation de X et Y

Calcul de r, par exemple non-nul

Extrapolation en population :

X et Y sont-elles en relation linéaire ?

Le coefficient ρ est-il non-nul ?

Test de nullité du coefficient de corrélation

Soit la relation Y=aX+b+ε, le coefficient a est-il non-nul ? Test de nullité de la pente de la droite de régression

Calcul différent, mais résultat identique

ATTENTION : ne teste pas l’indépendance stricto

sensu… => importance de l’exploration graphique !

(9)

Test de nullité du coeff. de corrélation

Test bilatéral

Hypothèse H

0

:

ρ=0

Autrement dit, X et Y sont ne sont pas corrélées linéairement

Condition de validité :

(…) acquises si X et Y suivent une distribution normale

(ce sont celles de la régression linéaire simple, cf. post)

Réalisation (autre approche existe) :

La quantité t suit une loi de Student à =n-2 ddl

Si |t|>t alors rejet de H0 :

X et Y sont linéairement corrélées

Sinon, non-rejet de H0 : on n’observe pas de corrélation linéaire significative entre les variables en population

1

2

. 2

r r n

t

= −

(10)

Synthèse : interprétation de r

Interprétation en fonction de r (en Y) et de l’effectif n (en X)

(graphe obtenu d’après la table de Student, test bilatéral, α=5%):

Corrélation non-signift ≠0 Corrélation signift ≠0, faible et positive Corrélation signift ≠0, forte et positive

Corrélation signift ≠0, faible et négative Corrélation signift ≠0, forte et négative 1 --

20 40 60 80 100

0,5 --

0 --

-0,5 --

(3 ; 1)

(16 ; 0.5)

(100 ; 0.2)

robtenu dans

l’échantillon Taille de

l’échantillon

(11)

Régression linéaire simple de Y sur X

On souhaite « modéliser » la relation entre X et Y par une équation

Y=aX+b+ε

(ε : fluctuation aléatoire)

Prédit Y et cherche à minimiser l’erreur « verticale » (c’est le plus fréquent)

On calcule a et b sur l’échantillon :

𝑎 = 𝑟. 𝑠𝑦

𝑠𝑥 = 𝑟. 𝑠𝑒𝑐ℎ 𝑌

𝑠𝑒𝑐ℎ 𝑋 = 𝑐𝑜𝑣𝑒𝑐ℎ 𝑋,𝑌 𝑠²𝑒𝑐ℎ 𝑋 𝑏 = ത𝑦 − 𝑎. ҧ𝑥

(12)

Régression de Y sur X

On obtiendra ainsi sur l’échantillon :

a, b coefficients calculés

y=ax+b équation de la droite de régression

Y=aX+b+ε modèle de régression

Et pour chaque individu i, avec xi :

yi valeur observée

ŷi=a.xi+b valeur prédite par la

régression (sur la droite)

ŷi-yi erreur (verticale) de prédiction ou « résidu »

Condition de validité : à valider a posteriori

Analyse des résidus (relation linéaire)

Recherche d’individus influents

y

i

ŷ

i

x

i

(13)

Analyse des résidus

Rappel : une valeur par individu, a.x

i

+ b - y

i

Distribution univariée des résidus

Toujours : moyenne=0 et écart type déterminé (cf. post)

Objectif : distribution normale (d’emblée acquis si Y ~

normale) => tracer un histogramme

Résidus en fonction de Y

Moyenne ne dépend pas de Y

Variance ne dépend pas de Y (homoscédasticité)

Histogram of residus1

residus1

Density

0 2 4 6 8 10

0.00.20.4

Histogram of residus

residus

Density

-3 -2 -1 0 1 2 3

0.000.20

^

^

^

30 35 40 45

-3-11

y

residus

30 35 40 45

-404

y

residus2

30 35 40 45

-202

y

residus3

Moyenne dépend de Y

Dispersion dépend de Y

^

^

(14)

Méthode graphique :

Distance de Cook (conseillée) :

Recherche d’individus influents

Y

X

Y

X

Aucun individu ne se détache, OK

Deux ou trois individus influents…

(15)

Prédiction

Pour une nouvelle valeur x

0

(avec y

0

inconnu), on peut tenter de prédire y

0

par ŷ

0

Prédiction probabiliste : un individu n’aura pas exactement la valeur prédite, mais :

L’erreur de prédiction suit une loi normale centrée et d’écart type s

YX

:

|r| élevée  prédiction précise

IC de la prédiction à 95% :

² 1

. r

s

s yx = y

yx

y y u s

IC ; 1 ˆ 0 .

0

 =  

(16)

Commentaire sur l’erreur de prédiction

𝑠𝑦𝑥 = 𝑠𝑦. 1 − 𝑟²

Si r=0

𝑠𝑦𝑥 = 𝑠𝑦

=> aucune réduction d’incertitude sur la valeur de y

Si |r|=1

𝑠𝑦𝑥 = 0

=> y est sur la droite, aucune incertitude

Cas général : l’existence d’une relation linéaire réduit l’incertitude sur y, sachant x.

(17)

Epilogue

Test de nullité de la pente : équivalent au test de nullité du coefficient de corrélation de

Pearson

Test de nullité de l’ordonnée à l’origine : peu utilisé en pratique

Possibilité de forcer un modèle y=ax +0

Régression de X sur Y :

Minimise l’erreur de prédiction de X : régression

« horizontale »

Formules différentes

Rarement utilisée

Régression orthogonale :

Minimise la distance (orthogonale) entre les points et la droite

Formules différentes

Rarement utilisée

Références

Documents relatifs

Unité de recherche INRIA Rennes : IRISA, Campus universitaire de Beaulieu - 35042 Rennes Cedex (France) Unité de recherche INRIA Rhône-Alpes : 655, avenue de l’Europe - 38334

Dans les deux premiers tableaux on indique la variable retenue ou éliminée aux différentes étapes de la procédure, on donne les valeurs de RI.^D ainsi que de RI également pour

• On considère les écarts entre la droite et les vrais points : on veut LA droite qui minimise ces écarts au carré :.. Régression non linéaires Régression

Mots clés : Modèle de régression linéaire, sélection bayésienne de variables, loi a priori de Zellner, lois a priori compatibles, modèles hiérarchiques, échantillonneur de

D’abord d´ecrit par Ramsay et Dalzell (1991), ce mod`ele est toujours l’objet de travaux r´ecents, comme en t´emoignent par exemple les articles de Cardot, Ferraty et Sarda

(e) Ajuster un modèle de régression linéaire multiple avec interaction permettant d’expliquer la variable logclaimcst0 en fonction des variables gender et agecat, considérée comme

Si X n’est pas de rang maximum p, la matrice X ⊤ X n’est pas inversible et le problème admet plusieurs solutions qui minimisent le risque empirique. ⇒ le problème est mal posé

Le coefficient de corrélation donne une indication sur l’alignement des points expérimentaux : plus |R| ou R 2 sont proches de 1, mieux les points sont alignés?. Le coefficient