• Aucun résultat trouvé

Fiche 1 – Estimation ponctuelle d'une moyenne et d'un écart- type, Intervalle de confiance

N/A
N/A
Protected

Academic year: 2022

Partager "Fiche 1 – Estimation ponctuelle d'une moyenne et d'un écart- type, Intervalle de confiance"

Copied!
25
0
0

Texte intégral

(1)

Fiche 1 – Estimation ponctuelle d'une moyenne et d'un écart- type, Intervalle de confiance

On dispose en général d'un échantillon X1,..., Xn prélevé dans une population pour laquelle la variable d'intérêt quantitative X a pour espérance (moyenne théorique) µ et variance 2 inconnues.

Règle pour l'estimation ponctuelle

: Soit une variable d'intérêt X mesurée sur un échantillon de n individus,

la moyenne  est estimée par l'estimateur X = 1 n

i=1 n

Xi

la variance 2 est estimée par l'estimateur sX2= 1 n−1

i=1 n

(XiX)2

D'une réalisation à l'autre, les estimations ponctuelles vont variées d'autant plus que le nombre d'observations n est faible. Pour affiner l'estimation de ces paramètres, on détermine alors un intervalle de confiance dans lequel les valeurs réelles µ ou 2 ont une probabilité déterminée à l'avance de se trouver.

Cet intervalle de confiance, noté IC, permet ainsi de prendre en compte la variabilité de l'estimation ponctuelle.

Propriétés de l'estimateur

X

cas 1 : n30 et la variable X suit une loi normale (fiche #Normalité)

Si 2 est connue, alors Zn=

n X− μ

σ suit la loi normale centrée réduite

Si 2 est inconnue, alors Tn=

n X− μ

sX suit la loi de Student à n−1 degrés de liberté.

Cas 2 : Pour n30 (application du théorème limite central)

Tn=

n X− μ

sX approche la loi normale centrée réduite

Propriété de l'estimateur

s2X

dans le cas où la variable X suit une loi normale

n−1s2X

2 suit la loi du 2 à n-1 ddl.

(2)

Construction d'un intervalle de confiance pour la moyenne

: On recherche toutes les valeurs de µ pour lesquelles Tn=

n X− μ

sX soit compris entre tα /2 et t1-α /2

t1-α /2 est le quantile de la loi normale ou de la loi de student T à n-1 ddl pour laquelle P(T<t1-α /2 )=1- α/2 donc

P (tα /2 < T < t1-α /2)=1-α (par symétrie tα /2 =- t1-α /2 ).

On a alors l’intervalle de confiance à 1-α pour  : X-t1-α/2 sX

n < µ < X+t1-α/2 sX

n Pour  = 5%, ce résultat signifie que "la vraie moyenne, μ", de la population a une probabilité de 95% d’être dans cet intervalle. On notera par commodité cet intervalle de confiance IC95.

Construction d'un intervalle de confiance pour la variance

: On recherche toutes les valeurs possibles de 2 pour lesquelles n−1s2X

2 soit compris entre

2

2,n−1 et 2

1

2,n−1 (ici il n'y a pas symétrie des quantiles).

2

2,n−1 est le quantile dans la table pour laquelle P(n−1s2X

2 <2

2,n−1) = α

2 donc

On a alors l’intervalle de confiance à 1-α pour 2 : n−1s2X/2

1−

2,n−1 < 2 < n−1s2X/2

2,n−1

Exemple

:

Reprendre l'exercice 1 du TD 1 et en déduire un intervalle à 95% de la moyenne et de sX. On trouvera les quantiles de la loi de Student et de la loi du Chi-2 à l'aide des commandes suivantes :

> qchisq(0.975,39) [1] 58.12006

> qchisq(0.025,39) [1] 23.65432

> qt(0.975,39) [1] 2.022691

(3)

On peut retrouver ces résultats à l'aide de la commande t.test qui propose un test de Student univarié sur la moyenne ainsi qu'un intervalle de confiance pour la moyenne.

> t.test(poids)

One Sample t-test data: poids

t = 27.3169, df = 39, p-value < 2.2e-16

alternative hypothesis: true mean is not equal to 0 95 percent confidence interval:

99.7716 115.7284 sample estimates:

mean of x 107.75

sample estimates:

mean of x 177

Construction d'un intervalle de confiance d'une proportion

Si une population contient une proportion f d’individus possédant un caractère donné, l'estimateur de ce paramètre est la fréquence du caractère dans l'échantillon, noté f.

Propriété de f pour n >100 et 0,1< f <0,9

f approche la loi normale N(f, f 1− fn )

Dans les autres cas, n<100 ou f < 0,1, il faut utiliser un modèle exact (binom.test dans R).

Propriété : Pour un échantillon tel que n >100 et n f >10 et n(1-f)>10 : L’intervalle de confiance à 1-α d’une proportion est :

] f - u1-α /2

f

1n− f

; f + u1-α /2

f

1n− f

[

où u1-a /2 représente le quantile de la loi normale centrée réduite. Pour =5%, u1-a /2=1,96.

(4)

Fiche 2 Test de comparaison d'une moyenne à une valeur référence

Objectif :

L'objectif est de comparer une moyenne à une valeur de référence. On qualifie un tel test de test de conformité.

Données :

On dispose d'une variable quantitative X mesurée sur n individus.

Hypothèse nulle

H0 : «  = 0 »

Conditions d’utilisation:

- Un échantillon de n individus indépendants - La variable suit une loi normale ou n >30.

Principe du test :

Pour une population de moyenne et variance inconnue, nous avons déjà vu que si les conditions sont respectées :

Tn=

n X− μ0

sX suit sous H0 une loi de Student à n-1 ddl.

Test bilatéral:

On teste H0 : « = 0 » contre H1 : «  ≠ 0»

si , ∣Tn<t1− α/2(n−1) on accepte H0

sinon on rejette H0 avec un risque de première espèce .

Test unilatéral:

H0 « µ>µ0 » contre H1 « µ  µ0»

si Tn>tα(n−1), on accepte H0

sinon on rejette H0 avec un risque de première espèce α.

Exemple

: Reprendre l'Exercice 1 du TD2 et réaliser le test grâce à la commande t.test.

Tester si une fréquence est conforme à une fréquence attendue.

Le but est de savoir si un échantillon de fréquence observée fobs = cas favorables

total , estimateur de f, appartient à une population de référence connue de fréquence f0( H0 vraie) ou à une autre population inconnue de fréquence f f0 (H vraie).

Principe du test :

(5)

On calcule la statistique U=

(fobsf0)

fo(1nf0) qui suit sous H0 la loi normale centrée réduite.

On calcule alors la probabilité p-value d'observer une valeur supérieure ou égale sous H0 (en valeur absolue).

Conditions d'utilisation :

Le test est applicable si n f0≥ 10 et n(1-f0) ≥ 10 (approximation par la loi normale).

Si cette condition n'est pas vérifiée, on utilise un test exact (binom.test).

Les individus sont indépendants.

Test :

On teste H0 f = f0 contre H f f0.

Si ∣U∣<N1− α /2 on accepte H0 (où Np est le quantile d'ordre p de la loi normale centrée réduite).

Sinon, on rejette H0 avec un risque de première espèce p.

Exemple 1

Reprendre l'exercice 2 du TD2 et conclure quant à la toxicité de la solution injectée au risque 5%.

Utiliser la commande prop.test et comparer avec la commande binom.test

Exemple 2

: On observe le sexe de 10 bébés : M F M M F F F F M F. Cette répartition est-elle conforme avec l'hypothèse de répartition équilibrée des deux sexes.

(6)

Fiche 3 – Comparaison de deux variances : Test F

Objectif :

L'hypothèse d'égalité des variances est indispensable pour tester l'égalité de deux moyennes avec le test t (#t - test). On souhaite donc tester l'égalité des variances de deux populations

Données :

On dispose d'une variable quantitative X1 de variance 12 mesurée sur n1 individus d'une population 1 et d'une variable quantitative X2 de variance 22 mesurée sur n2 individus d'une population 2.

Hypothèse nulle

H0 : Les variances sont égales «1 = 2 »

Conditions d’utilisation:

- Deux populations de moyennes et variances inconnues.

- Deux échantillons de n1 et n2 individus indépendants,

- Les variables suivent des lois normales ou chacun des effectifs est supérieur à 30 Le quotient s12

s22 suit sous H0 la loi de Fisher-Snedecor à n1-1 et n2-1 ddl

Test :

On teste l’hypothèse H0 (1² = 2²) contre H1 (1² ≠ 2²)

si F

2 (n1-1,n2-1)< s12 s22< F

1−

2 (n1-1,n2-1), on accepte H0

sinon on rejette H0 avec un risque de première espèce égal à .

Exemple

:

Récupérer le fichier « poulpe.csv » qui contient le poids de poulpes mâles et femelles. Pour cela, on utilise la commande read.table.

> poulpe<-read.table("poulpe.csv",sep=";",header=T)

>summary(poulpe)

> boxplot(Poids~Sexe,data=poulpe)

On veut tester l'égalité des variances dans ces deux populations. Qu'en pensez-vous ? Utiliser la commande var.test pour tester l'égalité des variances dans ces deux populations :

> var.test(Poids~Sexe,conf.level=0.95,data=poulpe)

(7)

Fiche 4 : Test de comparaison de deux moyennes : t – test

Objectif

: Comparer les moyennes obtenues dans deux populations.

Données :

On dispose d'une variable quantitative X1 d'espérance 1 mesurée sur n1 individus d'une population 1 et d'une variable quantitative X2 d'espérance 2 mesurée sur n2 individus d'une population 2.

Hypothèse nulle

H0 : «1 = 2 »

Conditions d’utilisation:

Deux échantillons de n1 et n2 individus indépendants.

La variable suit une loi normale dans chaque population ou n1 et n2 >30 : fiche

« Normalité »

La variable a la même variance dans les deux populations : fiche « Test F »

Principe du test

:

La variable d= x1x2 a pour variance estimée sd2 =

n1−1

s12

n2−1

s22

n1n2−2 ×

n11 1 n2

.

Si les conditions sont respectées, la statistique Tn = x1x2 sd

suit sous H0 une loi de Student à n1n2−2 ddl.

Test bilatéral:

On teste H0 : «1 = 2 » contre H1 : «1 ≠ 2 »

si ∣Tn∣ < t

1

2(n1n2−2) , on accepte H0

sinon on rejette H0 avec un risque de première espèce .

Test unilatéral:

On teste H0 : «1 > 2 » contre H1 : «12 »

si Tn<tα(n1n2−2), on accepte H0

sinon on rejette H0 avec un risque de première espèce .

Exemple

:

Reprendre le fichier « poulpe.csv ». Tester l'égalité des moyennes à l'aide de la fonction t.test :

> t.test(Poids~Sexe,conf.level=0.95,var.equal=TRUE,data=poulpe)

Peut-on considérer les variances égales ? Faire le test dans les deux cas en utilisant les options de la fonction t.test.

(8)

Fiche 5 – Test de conformité à une distribution : test du

2

d'adéquation

Objectif :

On considère une variable X prenant k modalités, k > 2.

L'objectif du test est de vérifier que les modalités se distribuent suivant des probabilités attendues.

On utilise un tel test en génétique par exemple pour vérifier :

les lois de Mendel, (répartition 1 4, 2

4, 1

4 pour F2)

le modèle de Hardy Weinberg. (répartition p12, 2 p1 p2, p22 ) .

Données :

Les données sont regroupées dans un tableau de contingence de la forme : Variable qualitative Modalité 1 Modalité 2 ....

effectif nobs1 nobs2 ....

Conditions d'application :

Les effectifs théoriques doivent être supérieurs à 5 ( nthi eor ≥ 5).

Dans le cas contraire, on peut regrouper les classes les plus faibles, utiliser un test du 2 corrigé, utiliser le test exact de Fisher...

Hypothèse nulle :

H0 « Les fréquences observées sont conformes aux probabilités attendues ».

Principe du test :

Le principe du test du χ2 est d’estimer à partir d’une loi de probabilité connue (ou estimée à partir de l'échantillon), les effectifs théoriques pour les différentes modalités du caractère étudié et les comparer aux effectifs observés dans un échantillon. Deux cas peuvent se présenter :

• soit la loi de probabilité est spécifiée a priori car elle résulte par exemple d’un modèle déterministe tel que la distribution mendélienne des caractères.

• soit la loi de probabilité théorique n’est pas connue a priori et elle est déduite des caractéristiques statistiques mesurées sur l’échantillon (estimation de p1 et p2 dans le cas du modèle de Hardy Weinberg).

Le test du χ2 consiste à mesurer l’écart qui existe entre la distribution théorique et la distribution observée et à tester si cet écart est suffisamment faible pour être imputable aux fluctuations d’échantillonnage.

On calcule les effectifs théoriques nth1 eor , nth2 eor ... attendus sous l'hypothèse où la distribution est conforme à celle attendue.

(9)

On calcule ensuite la statistique : 2 =

i=1

k

nobsinitheor

2

nthi eor

2 suit sous H0 la loi du 2 à  degrés de liberté. On rejette alors H0 dans le cas où 2 dépasse la valeur seuil 21−  (v).

Le nombre de ddl  est kc, k représente le nombre de modalités et c celui des contraintes.

Si la distribution théorique est entièrement connue a priori (lois mendeliennes), la seule contrainte est que la somme des probabilités vaut 1, donc  =k−1.

Sinon, il faut estimer des probabilités sur l'échantillon et augmenter d'autant les contraintes. Par exemple avec le modèle de Hardy Weinberg, la somme des probabilités vaut 1 et il faut estimer p1, soit c=2, donc  =k−2.

Test :

On teste l’hypothèse H0 (conforme à la distribution attendue) -si 2< 21− (v), on accepte H0

-sinon on rejette H0 avec un risque de première espèce α,

Exemple

:

Reprendre l'exercice 4 du TD2 et calculer à la main la valeur de 2 dans ce cas. Comparer-le au quantile 21− 4−1 et conclure pour un test à 5%. Réaliser le test sous R avec la commande chisq.test.

(10)

Fiche 6 – Test du Chi2 d'indépendance

Objectif :

Le test du χ2 est largement utilisé pour l'étude de l'indépendance entre deux caractères qualitatifs. La présentation des résultats se fait sous forme d'un tableau de contingence à deux entrées. Chaque entrée représente les modalités d'une des variables. On détermine alors le tableau attendu sous l'hypothèse d'indépendance.

Données :

Deux variables qualitatives sont mesurées sur n individus puis présentées sous forme d'un tableau de contingence (tableau à deux entrées) :

Par exemple :

tabac

c présence absence total

a

n présence c

e absence r total

Hypothèse nulle

H0 : Les deux caractères sont indépendants

Conditions d’utilisation:

L' effectif théorique calculé sous l'hypothèse H0 doit être supérieur à 5.

Principe du test :

On calcule les effectifs théoriques sous l'hypothèse H0. Les effectifs marginaux (totaux à la marge en ligne ou en colonne) et fréquences marginales du tableau restent inchangés.

nthijeor = nobsi⋅ ×nobsj n

avec ntheorij l'effectif théorique,

nobsi⋅ et nobsj les effectifs marginaux ligne et colonne, n l'effectif total.

On calcule alors la statistique : 2 =

ij

nobsijnijtheor

2

nijtheor

Sous H0, cette statistique suit la loi du 2 à v= (l-1)(c-1) ddl avec l le nombre de lignes et c le nombre de colonnes.

Test :

On teste l’hypothèse H0 “indépendance des deux caractères” contre H1 “dépendance entre les deux caractères” :

-si 2 < 21−  (v), on accepte H0

-sinon on rejette H0 avec un risque de première espèce α.

(11)

Exemple

:

Reprendre l'exercice 5 du TD2 et calculer à la main les valeurs de 2 dans chaque cas. Comparer-le au quantile 21−  et conclure pour un test à 5%.

On peut aussi réaliser le test sous R. Pour cela, on pourra utiliser les commandes suivantes, qui permettent de visionner les données et de réaliser le test :

>tab<-matrix(c(10,29,75,27),ncol=2)

>rownames(tab)<-c("infection","pas d'infection")

>colnames(tab)<-c("antibio","placebo")

>par(mfrow=c(2,1))

>barplot(tab[1,],main="infection") barplot(tab[2,],main="pas d'infection")

>resultat<-chisq.test(tab)

>resultat$res

(12)

Fiche 7 – Comparaison de deux moyennes appariées : t-test apparié

Objectif

: Comparer les moyennes obtenues dans le cas où les observations sont appariées (avant- après sur un même individu, mesure par deux méthodes).

Chaque individu est décrit par un couple de variables

X1, X2

.

Données

: On dispose de deux variables quantitatives X1 et X2 mesurées sur n individus d'une population.

X1 X2 ind 1 x11 x21

ind 2 x12 x22

Hypothèse nulle

H0 : «1 = 2 »

Conditions d’utilisation:

Les individus sont indépendants.

Les variables X1 et X2 suivent une loi normale ou n >30

Les variables ont la même variance

Principe du test :

On construit une nouvelle variable Z=X2X1.

Si les conditions sont respectées, la variable Tn =

n Z

sz suit sous H0 une loi de Student à n-1 ddl.

Test bilatéral:

On teste H0 : «1 = 2 » contre H1 : «1 ≠ 2 »

si ∣Tn∣ < t

1−

2, on accepte H0

sinon on rejette H0 avec un risque de première espèce égal à .

Exemple

Reprendre l'exercice 6 du TD2 et comparer les moyennes avant et après traitement grâce à la fonction t.test et la commande suivante :

>t.test(valeur$avant,valeur$apres,alternative='twosided',conf.level=0.95,paired=TRUE)

(13)

Fiche 8 – Normalité d'une distribution

Objectif

: La majorité des tests paramétriques s'appuie sur l'hypothèse de normalité de la variable étudiée X. Lorsque le nombre d'observations est suffisamment grand, le théorème limite central permet d'approcher la moyenne empirique par une loi normale.

Cependant, lorsque le nombre d'observations n'est pas suffisant, il existe plusieurs méthodes de vérification. Elles ne sont pas entièrement satisfaisantes (faible puissance) notamment du fait des faibles effectifs souvent étudiés.

On est donc conduit à croiser plusieurs approches, graphiques et tests, pour évaluer cette hypothèse.

Exemple 1 :

Reprendre l'exemple des poulpes mâles et femelles. Discuter.

I) Représentations graphiques

: 1. Symétrie de la distribution

On réalise ici une boîte à moustache (ou boxplot) de nos observations à l'aide de la comande boxplot. Ce graphique nous indique la position de la médiane dans l'intervalle inter-quartile, ainsi que la distribution des points extrémaux. Un boxplot asymétrique permet d'infirmer l'hypothèse de normalité des données.

2. Symétrie et unimodalité de la distribution

Pour plus de précisions, on réalise ici un histogramme. L'existence de deux « pics » ou une forte dissymétrie est un bon indice d'une non normalité.

3. Droite de Henry

La droite de Henry représente les quantiles (xi) de la loi empirique en fonction des quantiles de la loi normale centrée réduite (ti). Si la loi empirique suit une loi normale, les points sont alignés (xi = ti + ).

La fonction permettant cette représentation graphique est qqnorm.

II) Tests statistiques :

Il existe différents tests pour étudier la normalité : Test de Jarque Bera , Test d'adéquation du 2, test de Lilliefor (> library(nortest) > lillie.test(X)), test de shapiro Wilks. La

multitude des tests indique qu'aucun n'est entièrement satisfaisant. Nous nous limiterons au dernier parmi les plus utilisés.

Test de Shapiro & Wilks :

On retiendra que le test de Shapiro et Wilks porte sur la corrélation au carré qu’on voit sur un qqplot. La corrélation est toujours très forte, la question est toujours ”l’est-elle assez ?” La probabilité critique est la probabilité pour que la statistique soit inférieure ou égale à l’observation.

Exemple 1 -suite- :

Reprendre l'exemple poulpe avec la variable Poids. Effectuer le test de Shapiro. Le résultat est le suivant :

(14)

> shapiro.test(data$Poids)

Shapiro-Wilk normality test data: data$Poids

W = 0.933, p-value = 0.0733

Le test n'est pas correct ici car cette variable dépend du sexe. Il faut donc tester la normalité pour chaque sous-population, sinon on réalise le test sur un mélange de deux distributions.

On teste la normalité pour chacune des populations à l'aide des commandes suivantes :

> data=read.table("poulpe.csv",header=T,sep=";")

> x=data$Poids[data$Sexe=="Femelle"]

> y=data$Poids[data$Sexe=="M\xe2le"]

> shapiro.test(y)

Shapiro-Wilk normality test data: y

W = 0.935, p-value = 0.3238

> shapiro.test(x)

Shapiro-Wilk normality test data: x

W = 0.9711, p-value = 0.907

On remarque ici que les deux tests ont des p-valeurs supérieures à 5%. Peut-on conclure à la normalité des observations ? Aidez -vous des représentations graphiques.

(15)

Fiche 9 – Test du coefficient de corrélation

Soient (X,Y) un couple de variables quantitatives. La description de la liaison entre les deux variables se fait préalablement par un examen du nuage de points (xi,yi), i=1, ... n.

Si le nuage de points décrit une relation linéaire entre les deux variables, on peut calculer comme indicateur de la liaison linéaire entre les deux variables, le coefficient de corrélation de Pearson :

r=

((xix) (yiy)) σxσy

Si la relation entre les variables n'est pas linéaire, il est possible d'utiliser un autre coefficient de corrélation (par exemple le coefficient de corrélation de Spearman basé sur les rangs des

observations).

Données :

Un couple de variables quantitatives :

X Y

x1 y1

x2 y2

Objectif :

On veut tester si la liaison linéaire entre les variables est significative, c'est-à-dire si le coefficient de corrélation peut être considéré comme significativement non nul.

Conditions d'application

: Elles reposent sur la normalité de chacune des variables X et Y.

Hypothèse nulle :

H0 "le coefficient de corrélation de Pearson est nul" ou "Les variables X et Y ne sont pas corrélées linéairement".

Principe du test :

Sous H0, la statistique r suit une loi tabulée à n-2 ddl. On construit alors une zone d'acceptation centrée sur 0.

Test :

On teste H0 « r= 0 » contre H « r ≠ 0 ».

Si p >0,05, on accepte H0.

Si p <0,05, on rejette H0 avec un risque de première espèce p.

Exemple :

Sur un échantillon de 10 sujets d’âges différents, on a recueilli l'âge et la concentration sanguine du cholestérol (en g/L) de 10 individus :

age (xi) 30 60 40 20 50 30 40 20 70 60

gl (yi) 1.6 2.5 2.2 1.4 2.7 1.8 2.1 1.5 2.8 2.6

Ci-dessous les commandes R pour effectuer le test. Commenter la sortie graphique du logiciel et la réponse au test de corrélation. On pourra investiguer les autres méthodes (Spearman, Kendall), en changeant l'argument method dans la fonction cor.test,

> age<-c(30,60,40,20,50,30,40,20,70,60)

> chol<-c(1.6,2.5,2.2,1.4,2.7,1.8,2.1,1.5,2.8,2.6)

(16)

> plot(chol,age)

> cor.test(age,chol,method="pearson") Pearson's product-moment correlation data: age and chol

t = 9.0714, df = 8, p-value = 1.748e-05

alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval:

0.8148247 0.9895142 sample estimates:

cor 0.9546712

(17)

Fiche 10 – Régression linéaire simple

I. Introduction

La régression linéaire simple s'applique à un ensemble d'observations (x1,y1), (x2,y2), ... , (xn,yn) de couples de variables quantitatives. L'analyse peut se limiter à l'analyse des liaisons entre variables (corrélation linéaire ou non-linéaire), mais on recherche souvent à expliquer une des variables en fonction de l'autre.

On distingue alors la variable à expliquer Y (réponse) et les variables explicatives Xi. Les variables explicatives peuvent être fixées par l'expérimentateur ou aléatoires. Dans tous les cas :

la variable explicative Xi est considérée comme fixe (ce n'est pas une variable aléatoire).

la variable réponse Y est considérée comme une variable aléatoire (loi normale le plus souvent).

le rôle des variables n'est donc pas symétrique et le choix de Y est le plus souvent naturel.

L'objectif de la régression est de déterminer, si elle existe, une relation fonctionnelle entre la variable à expliquer Y et une ou plusieurs variables explicatives X1, X2

Données :

Y X1

individu 1 y1 x11 individu 2 y2 x12

Représentation graphique :

La première étape est d'observer le nuage de point pour déceler une éventuelle relation fonctionnelle.

Exemple :

Reprendre l'exemple du cholesterol. Existe-t'il un lien entre ces deux variables ? Ce lien est-il linéaire ?

II. Le modèle de régression linéaire simple

On utilisera une régression linéaire simple dans le cas où :

la relation fonctionnelle peut être considérée comme linéaire entre Y et X (observation du nuage de points),

la corrélation est significativement différente de 0 (Fiche 9).

Dans le cas contraire, il n'existe pas de relation (linéaire) significative entre Y et X et l'utilisation d'un modèle de régression linéaire n'a aucun intérêt.

On réalisera donc toujours ces deux vérifications au préalable et dans l'ordre avant de se lancer dans une régression linéaire.

Dans de nombreux cas, la relation fonctionnelle entre Y et X ne peut pas être considérée comme linéaire :

on peut soit revenir à un modèle linéaire par changement de variables,

soit utiliser une régression non linéaire (non abordé).

(18)

a. Le modèle et les hypothèses

yi = α + β xi+ εi avec εi une variable aléatoire suivant une loi normale centrée N(0,σ²) On suppose dans ce cas les choses suivantes :

le lien entre les deux variables est linéaire,

les variables εi sont indépendantes identiquement distribuées de loi N(0,σ²)

L'intérêt du modèle linéaire est sa simplicité et les différents outils statistiques qui s'y rattachent : diagnostic, intervalle de prédiction, test sur les coefficients …

b. Estimation des paramètres:

Pour estimer les paramètres du modèle, on recherche dans une famille fixée de fonctions, la fonction f pour laquelle les yi sont les plus proches des f(xi). Dans le cas de la régression simple, f(x)= α + βx . La proximité se mesure en général comme une erreur quadratique moyenne :

Critère des moindres carrés = 1

n

i=1 n

yif

xi

 

2

On parle alors de régression au sens des moindres carrés.

Dans le cadre du modèle linéaire, on notera a, b, s² les estimations des paramètres α, β et σ² . La méthode des moindres carrées conduit à :

b =

∑ 

xix

 

yiy

xix

2 , a = y - b x et s² = 1

n−2

∑ 

yi− yi

2.

Les différences entre les valeurs observées yi et les valeurs prédites yi par le modèle s'appellent les résidus, notés ei :

Résidus: ei= yi – a+b xi= yi - yi avec yi = a+b xi

Exemple :

Reprendre l'exemple cholesterol et estimer les paramètres à la main et avec R grâce aux commandes suivantes :

> X<-cbind(chol,age)

> cholesterol<-data.frame(X)

> reg<-lm(chol~age,data=cholesterol)

>summary(reg) Call:

lm(formula = chol ~ age, data = cholesterol) Residuals:

Min 1Q Median 3Q Max -0.17826 -0.11141 -0.01304 0.03315 0.35217 Coefficients:

Estimate Std. Error t value Pr(>|t|)

(19)

(Intercept) 0.923913 0.141793 6.516 0.000185 ***

age 0.028478 0.003139 9.071 1.75e-05 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.1649 on 8 degrees of freedom

Multiple R-squared: 0.9114, Adjusted R-squared: 0.9003 F-statistic: 82.29 on 1 and 8 DF, p-value: 1.748e-05

Commenter les résultats obtenus.

Illustration de la méthode des moindres carrés

c. Tests et intervalles de confiances : exemple des eucalyptus

On étudie toutes les possibilités du logiciel R et de la fonction lm dans le cas d'un modèle de régression simple. On dispose pour cela des données eucalyptus, qui contient la hauteur de 1429 eucalyptus (ht) en fonction de la circonférence à un mètre du sol (circ).

Réaliser et commenter les commandes suivantes du logiciel R : Phase de pré-analyse

>euca=read.table("eucalyptus.txt",header=T)

>plot(ht~circ,data=euca)

>cor.test(euca$ht,euca$circ,method="pearson") Réalisation du modèle de régression

>reg=lm(ht~circ,data=euca)

Droite de régression et intervalle de confiance

>circ=seq(min(euca[,"circ"]),max(euca[,"circ"]),length=100)

>grille<-data.frame(circ)

>ICdte<-predict(reg,new=grille,interval="confidence",level=0.95)

>matlines(grille$circ,cbind(ICdte),lty=c(1,2,2),col=1) Représentation des résidus

>res<-rstudent(reg)

>plot(res,pch=15,ylab=Résidus,ylim=c(-3,3))

>abline(h=c(-2,0,2),lty=c(2,1,2)).

Intervalle de confiance des paramètres

>seuil<-qt(0.975,df=reg$df.res)

>beta0min<-coef(resume)[1,1]-seuil*coef(resume)[1,2]

(20)

>beta0max<-coef(resume)[1,1]+seuil*coef(resume)[1,2]

>beta1min<-coef(resume)[2,1]-seuil*coef(resume)[2,2]

>beta1max<-coef(resume)[2,1]+seuil*coef(resume)[2,2]

(21)

Fiche 11 – Validation du modèle de régression linéaire simple

On se place dans le cadre d'une relation linéaire entre deux variables (examen du nuage de points) et d'une liaison linéaire significative entre ces deux variables (coefficient de corrélation

significativement non nul).

Les hypothèses du modèle de régression linéaire simple nécessaire à la construction des principaux tests statistiques (inférence) sont :

- l'indépendance des observations,

- la distribution normale centrée de l'écart résiduel,

- l'homoscédasticité, à savoir que l'écart résiduel suit la même loi indépendamment des valeurs de xi ou yi.

Dans le cas où ces hypothèses sont vérifiées, il est possible de construire des intervalles de confiances pour les paramètres estimés, des intervalles de confiance pour la prédiction, comparer les modèles, ...

La vérification de ces hypohèses n'est pas toujours évidente. Il est préférable de croiser différentes méthodes, graphiques et tests, pour évaluer l'existence d'écarts aux hypothèses. Aucune méthode n'est entièrement satisfaisante.

1. Indépendance des résidus

Le problème d'indépendance est important, notamment dans le cas de séries chronologiques où nos observations sont rangées par ordre chronologique. Pour vérifier l'indépendance des observations, on va réaliser l'analyse de l'indépendance des résidus ei= yi – a+b xi= yi - yi .

La première méthode est l'observation graphique : On observe les résidus en fonction du temps (dans le cas des séries chronologiques), ou bien les résidus en fonction de la variable explicative.

On observe ainsi l'ajustement du nuage de points par rapport à la droite de régression et on peut détecter des écarts éventuels, dus à l'apparition de tendances cycliques (saisons, cycles

économiques,...), une relation non linéaire, une répartition non aléatoire des résidus (amplitude, signe).

On peut aussi réaliser un test de Durbin Watson grâce à la statistique

i=2 n

eiei−1

2

i=2 n

ei2

qui mesure l'autocorrélation d'ordre 1 des résidus, c'est-à-dire une relation du type :

εi+1= ρ εi + τ avec τ ~N(0,σ²).

2. Homoscédasticité

Un des problèmes récurrents est l'existence d'une relation entre la variance des résidus et la valeur de yi ou celle de xi. la variance des résidus a parfois tendance à croître avec yi ou xi. On peut alors, pour vérifier l'hypothèse d'homoscédasticité, faire une observation graphique des résidus en

(22)

fonction des yi ou des xi. Les écarts ne doivent pas croître en fonction de yiou xi mais toujours rester du même ordre de grandeur.

3. Normalité

La dernière hypothèse du modèle de régression simple est la normalité des résidus. Pour cela, on se reporte à la Fiche 8, que l'on applique à nos résidus ei.

Exemples :

Reprendre l'exemple cholesterol puis l'exemple eucalyptus et vérifier les hypothèses du modèle de régression simple.

(23)

Fiche 12 – Analyse de variance à 1 facteur

Objectifs :

Comparer les moyennes d'une variable quantitative Y en fonction d'un facteur. Estimer les effets de chaque modalité du facteur sur la valeur de la variable Y.

Les données :

On dispose d'un tableau du type :

Y Facteur

y11 A y12 A y11 A y21 B y22 B ... ...

où Y représente la colonne des observations Y et Facteur est une colonne déclarée en facteur. On appelle facteur une variable qualitative prenant plusieurs modalités dont on étudie l'influence sur la variable Y. Par exemple, le facteur peut être la variété, le dosage d'un apport nutritif, le type d'engrais, un traitement …

L'objectif est d'évaluer si le facteur influence significativement la variable Y.

Conditions d'utilisation (Voir Fiche 13) :

les observations sont indépendantes,

la variable Y suit la loi normale au sein de chaque modalité,

la variance de Y est la même pour toutes les modalités.

Hypothèse nulle

: H0 « les moyennes sont toutes égales » contre H « les moyennes ne sont pas toutes égales ».

Principe du test :

La somme des carrés totale décompose en somme des carrés entre les groupes (ou expliqué par le modèle), et somme des carrés à l'intérieur des groupes (ou résiduelle) :

SCET = SCEB + SCEW

ik

yiky

2 =

ik

yiy

2 +

ik

yikyi

2

On utilise l'écriture anglosaxonne avec : B pour between groups (entre groupes) W pour within group (intra groupe)

On obtient les différentes variances, ou carrés moyens, en divisant les sommes de carrés d'écart par leurs degrés de liberté :

CMT= SCET

n−1 CMB = SCEB

q−1 CMW = SCEW n−q

(24)

avec n l'effectif total et qle nombre de modalités.

On montre alors que la statistique F = CMB

CMW suit la loi de Fisher à (q-1;n-q) ddl sous H0.

Test

: On teste H0 « les moyennes sont toutes égales » contre H « les moyennes ne sont pas toutes égales

si F< F1− (q-1,n-q), on accepte H0

sinon on rejette H0 avec un risque de première espèce égal à  (ou p).

Estimation des effets

En présence d'un seul facteur, on peut écrire le modèle d'analyse de variance de la manière suivante :

yik = μ + αi + εik avec μ la moyenne générale de Y

αi l'effet du la modalité i sur la moyenne

εik variables aléatoires indépendantes suivant une loi normale centrée N(0,σ²).

on considère que la variable Y suit pour chaque modalité i une loi normale N( μ + αi ,σ²).

estimation des paramètres du modèle:

Les coefficients sont estimés en minimisant l'erreur quadratique moyenne : Critère des moindres carrés = 1

n

ik

yik− yik

2,

et l'on obtient yik=yi. Les différences entre les valeurs observées yik et les valeurs prédites par le modèle notée yiks'appellent les résidus, notés eik = yikyi.

Les estimations des coefficients sont :

y= 1

n

ik

yik pour μ

yi = 1 ni

k

yik pour μi = μ + αi soit ai = yiy pour αi

s² = 1 nq

ik

yikyi

2 pour σ² avec q le nombre de modalités

Exemple :

Cinq pièces sont prélevées au hasard dans la production de trois machines, A, B et C.

Chacune des pièces est ensuite mesurée par un seul opérateur. Les mesures sont présentées dans le tableau ci-dessous:

facteur A A A A A B B B B B C C C C C

mesure 5 7 6 9 13 8 14 7 12 9 14 15 17 18 11

(25)

Fiche 13 – Validation du modèle d'analyse de variance

On rappelle le modèle d'analyse de variance :

yik = μ + αi + εik avec μ la moyenne générale de Y

αi l'effet du la modalité i sur la moyenne

εik variables aléatoires indépendantes suivant une loi normale centrée N(0,σ²).

Ainsi on doit vérifier les trois hypothèses suivantes : indépendance, normalité, et homoscédasticité.

1. Indépendance

L'hypothèse principale du modèle d'analyse de variance est l'indépendance des données.

Ne pas respecter cette propriété conduit à mesurer et tester autre chose que l'effet étudié, autant dire les données deviennent inexploitables.

Pour vérifier l'indépendance des données, on pourra utiliser les techniques utilisées en régression linéaire simple (Fiche 11), à savoir l'analyse graphique des résidus du modèle.

2. Normalité

La décomposition de la variance est toujours valable, quelle que soit la distribution des variables étudiées. Cependant, lorsqu'on réalise le test final (test F), on admet la normalité des distributions (puisque le F est le rapport de deux khi-deux, qui sont des sommes de carrés de lois normales).

L'ANOVA fait donc l'hypothèse de normalité. Elle est cependant assez robuste à la non normalité, ce qui permet de l'utiliser dans une grande variété de conditions.

Pour vérifier la normalité des données de chaque modalités, on utilise la Fiche 8 sur la normalité.

3. Homoscédasticité

A l'opposé, l'ANOVA fait une autre hypothèse très forte et moins évidente. Il est en effet nécessaire que la variance dans les différents groupes soit la même. C'est l'hypothèse d'homoscedasticité.

L'ANOVA y est sensible. Il est donc nécessaire de la tester avant toute utilisation.

Pour cela, on doit vérifier que l'égalité des variances dans les différents groupes. On peut utliser le test de Bartlett.

Exemple :

Vérifier les hypothèses de l'analyse de variance dans l'exemple précédent.

Références

Documents relatifs

conjointe de deux variables ordonnées, de leurs distributions marginales, et de la densité de la première par rapport au produit des deux autres. On y lit une forme

qui est généralement introduit dans les problèmes de transport linéaire pour fournir une solution de départ qui n’est pas optimale [Simmonard (1962)]. Par contre,

Comme un plan X = X&lt; coupe la surface suivant une conique passant en B et C, si cette conique se compose de deux droites, deux cas sont possibles : l'une des droites passera en

Dans la suite, on considère l’exemple suivant : une urne contient des boules vertes et des boules rouges dont on ignore le nombre et la proportion.. On effectue un tirage dans

Dans ce qui suit, nous démontrerons comment on étend ce théorème au système de deux équations algébriques entre deux

alors le critère concorGM de type procruste (toutes les métriques Mi et Nj sont les métriques identité), et les modifications successives des tableaux Xi sont

De nombreux concepts de dépendance positive entre deux variables aléatoires ont été introduits dans la littérature.. Lehmann [17], par exemple, discute les concepts de

Bien que ces deux critères aient été construits à partir d’idées différentes, distance (entre deux tables de contingence) pour le X2 et coefficient de