• Aucun résultat trouvé

A.Godichon-Baggioni ANOVA Mise`aniveau

N/A
N/A
Protected

Academic year: 2022

Partager "A.Godichon-Baggioni ANOVA Mise`aniveau"

Copied!
32
0
0

Texte intégral

(1)

ANOVA

A. Godichon-Baggioni

(2)

I. Analyse de la variance `a 1 facteur

(3)

INTRODUCTION

L’analyse de la variance (ANOVA) d´esigne un ensemble de techniques statistiques permettant d’appr´ecier l’effet

I d’une ou plusieurs variables qualitatives, appel´ees facteurs

I sur une variable quantitative.

L’ANOVA `a un facteur, c’est l’´etude

I de l’effet d’un facteurA, que l’on supposera `a Iniveaux, I sur une variable quantitativeY.

(4)

EXEMPLE

Un forestier s’int´eresse aux hauteurs moyennes de 3 forˆets.

Pour les estimer, il ´echantillonne un certain nombre d’arbres et mesure leurs hauteurs :

Forˆet 1 2 3

23.4 22.5 18.9 24.4 22.9 21.1 24.6 23.7 21.1 24.9 24.0 22.1 25.0 24.0 22.5

26.2 23.5

24.5 Nombre d’arbres n1=6 n2=5 n3=7

Moyenne 24.75 23.42 21.96

(5)

EXEMPLE

1 2 3

19 20 21 22 23 24 25 26

Hauteur des arbres (en m)

Forêts

A partir de ces donn´ees, le forestier souhaite savoir si la hauteur moyenne des arbres est la mˆeme dans les 3 forˆets, ou pas.

(6)

LE CADRE

On consid`ereI´echantillons ind´ependants X1,1, . . . ,X1,n1∼ N µ1, σ2 ...

XI,1, . . . ,X1,nI ∼ N µI, σ2 avecσ2>0. L’objectif est donc de tester

H0:∀i,j, µi=µj contre H1:∃(i,j), µi6=µj.

(7)

ANOVA ET MODELE LIN` EAIRE GAUSSIEN´

On peut r´e´ecrire notre mod`ele comme X=+ avec

X=

X1,1

... X1,n1

... XI,nI

Rn, µ=

µ1

... µI

, A=

1n1 0 . . . 0 0 1n2 ... 0 ... . .. ...

0 ... 1nI

avecn=PI

i=1ni,1ni= (1, . . . ,1)TRniet∼ N 0, σ2In .

(8)

ESTIMATEUR DES MOINDRES CARRES´

L’estimateur des moindres carr´es deµest unique et est donn´e par

ˆ

µ= ATA−1 ATX=

1 n1

Pn1

i=1X1,i

...

1 nI

PnI

i=1XI,i

=

X1,n1

... XI,nI

.

L’estimateur non biais´e deσ2est donn´e par

ˆ

σ2= 1

nIkXAµkˆ 2= 1 nI

I

X

i=1 ni

X

j=1

Xi,jXi,ni

2

(9)

PROPRIET´ ES DES ESTIMATEURS´

Proposition

On a

1. µˆ∼ N

µ, σ2Diag n−1i 2. (n−I)ˆσ2σ2 χ2n−I

3. µˆetσˆ2sont ind´ependants.

(10)

CONSTRUCTION DE LA STATISTIQUE DE TEST

L’objectif est d’utiliser les tests sur les mod`eles emboit´es.

I Soit

M0 =vect{1n} et D=Im(A) =

Aα, αRI . I Notons queM0D.

I On r´e´ecrit le test comme

H0:E[X]∈ M0 contre H1:E[X]D.

I On consid`ere la statistique

F= dim D

kPM0XPDXk2 (dim(D)dim(M0))kPDXk2

(11)

LE TEST

Th´eor`eme

On a

F= (nI)PI

i=1ni Xi,niXn

2

(I1)PI i=1

Pni

j=1 Xi,jXi,ni

2 F(I1,NI) sous H0 Un test de niveauαrevient donc `a consid´erer la zone de rejet

ZRα={F >f1−α,I−1,n−I}.

(12)

R ´EECRITURE DU MOD´ ELE`

On noteµi=m+αi. On peut r´e´ecrire le mod`ele comme X=1nm+Aα+= ˜A

m α

+

avecA˜ = [1n,A]Rn×(I+1)

Remarque : On a rang( ˜A) =Iet la matrice n’est donc pas de rang plein, et on a donc pas unicit´e de l’estimateur des moindres carr´es.

(13)

CONTRAINTES

Pour rendre l’estimateur des moindres carr´es unique, on va consid´erer la contrainte :

I

X

i=1

niαi=0

ce qui revient `a consid´erer que

m=1 n

I

X

i=1

niµi.

Le test se r´e´ecrit alors

H0:∀i, αi=0 contre H1:∃i, αi6=0.

(14)

D ´ECOMPOSITION DE Rn

On peut ´ecrireRncomme

Rn=M0⊕ MAD avec

I M0=vect{1n}correspondant `a l’effet moyen I MA=n

0,PI

i=1niα0i=0o

correspondant `a l’effet d ˆu au facteur

I avecDl’espace des r´esidus, o `u D=M0⊕ MA=

Aα0, α0RI

(15)

TABLEAU DANALYSE DE LA VARIANCE

On r´esume les informations dans le tableau d’analyse de la variance :

Somme des carr´es des ´ecarts DDL Carr´e moyen SCEtotal=

PM

0 X

2=P

i,j

Xi,jXn

2

n1 CMEtotal=SCEntotal1 SCEfacteur=

PMAX 2=PI

i=1ni

Xi,niXn

2

I1 CMEfacteur=SCEI−1facteur SCEr´esidu=

PDX 2=P

i,j

Xi,jXi,ni

2

nI CMEr´esidu=SCEnr´esiduI

(16)

QUELQUES RESULTATS´

Proposition

On a

SCEtotal=SCEfacteur+SCEr´esidu.

I SCEtotalrepr´esente la variabilit´e totale dans les donn´ees I SCEfacteurrepr´esente la variabilit´e d ˆue au facteur.

I SCEr´esidurepr´esente la variabilit´e r´esiduelle.

Remarque : Faire le test revient `a consid´erer la zone de rejet ZRα=

CMEfacteur

CMEr´esidu

>f1−α,I−1,n−I

(17)

II. Analyse de la variance `a 2 facteurs

(18)

INTRODUCTION

On g´en´eralise le cadre de l’analyse de la variance `a un facteur `a celui `a deux facteurs

Exemple : On veut ´etudier l’effet de deux facteurs qualitatifs, le niveau de la fertilisation et rotation de la culture, sur le poids des grains de colza. On compare

I p=2 niveaux de fertilisation (1 pour faible et 2 pour fort) I q=3 types de rotation ma¨ıs/bl´e/colza (Asans

enfouissemnt de paille,Bavec enfouissement de paille,C avec 4 ann´ees de prairie temporaire entre chaque

succession sans enfouissement de paille).

On a doncp×q = 2×3=6 traitements possibles, un traitement ´etant une combinaison de niveaux des facteurs Fertilisation*Rotation(1A, 1B, 1C, 2A, 2B, 2C).

(19)

EXEMPLE

En notantyijkle poids des grains sur lak`emeparcelle trait´ee avec le traitement(ij)(fertilisationi, rotationj), on peut r´esumer ce tableau en

Rotation Fertilisation

A (j=1)

B (j=2)

C

(j=3) Total

y11.=24,11 y12.=24,00 y13.=28,64 y1..=25,58

i=1 n11=10 n12=10 n13=10 n1.=30

s11=8.61 s12=7.37 s13=5.86

y21.=15,81 y22.=19,84 y23.=31,75 y2..=22,47

i=2 n11=10 n12=10 n13=10 n1.=30

s21=7.44 s22=8.27 s23=7.25

Total y.1.=19,96 y.2.=21,92 y.3.=30,20 y=24,03

n.1=20 n.2=20 n.3=20 n=60

(20)

OBJECTIF

On cherche donc `a ´etudier

I l’effet de deux variables qualitativesAetB, appel´es facteurs,

I sur une variable quantitativeY.

On suppose que

I le facteurAaIniveaux I et le facteurBaJniveaux.

Pour chaque couple(i,j)de niveaux des facteursAetB, on dispose de nijmesures deY, not´eesyijkaveci=1,· · · ,I, j=1,· · ·,Jetk=1,· · ·,nij.

(21)

ANALYSE DE LA VARIANCE A DEUX FACTEURS`

On consid`ere des variables al´eatoiresXi,j,kind´ependantes telles que

Xi,j,k∼ N µi,j, σ2

On r´e´ecrit le mod`ele sous la forme

Xi,j,k=m+αi+βj+γi,j+i,j,k avec lesi,j,ki.i.d eti,j,k∼ N 0, σ2

.

Pour des raisons d’identifiabilit´e, on introduit les contraintes

I

X

i=1

αi=0,

J

X

j=1

βj=0, ∀i,

J

X

j=1

γi,j=0, ∀j,

I

X

i=1

γi,j=0.

(22)

REMARQUES

I mest la moyenne globale de toutes les observations, et m= 1

IJ X

i,j

µi,j.

I Lesαid´ecrivent l’effet d ˆu au facteur A.

I Lesβjd´ecrivent l’´effet d ˆu au facteur B.

I Lesγi,jd´ecrivent l’effet d’interraction entre A et B.

I Dans ce qui suit, on consid`ereni,j=Kpour touti,j.

(23)

OBJECTIFS

I Tester l’absence d’effet principal du facteur A, i.e tester H0:∀i, αi=0 contre H1:∃i, αi6=0.

I Tester l’absence d’effet principal du facteur B, i.e tester H0:∀j, βj=0 contre H1:∃j, βj6=0.

I Tester l’absence d’effet d’interraction, i.e tester

H0:i,j, γi,j=0 contre H1:∃(i,j), γij6=0.

(24)

R ´EECRITURE DU MOD´ ELE`

On peut r´e´ecrire le mod`ele comme

X=m1n+Aα+Bβ+Cγ+ n=IJK.

X= X1,1,1, . . . ,X1,1,n1,1,X1,2,1, . . . ,X1,2,n1,2, . . . ,XI,J,1, . . .XI,J,nIJ

T

α= (α1, . . . , αI)T β= (β1, . . . , βJ)T

γ= (γ1,1, . . . , γ1,J, . . . , γI,1, . . . , γI,J)T

= 1,1,1, . . . , 1,1,n1,1, 1,2,1, . . . , 1,2,n1,2, . . . , I,J,1, . . . I,J,nIJT

N 0, σ2In

(25)

R ´EECRITURE DU MOD´ ELE`

A=

1JK . . . 0 ... . .. ... 0 . . . 1JK

Rn×I, B=

1K . . . 0 ... . .. ...

0 . . . 1K

... ... ... 1K . . . 0 ... . .. ...

0 . . . 1K

Rn×J

C=

1K . . . 0 ... . .. ...

0 . . . 1K

Rn×IJ

(26)

ANOVA ET MODELES EMBOIT` ES´

On peut r´e´ecrireRncomme

Rn=M0⊕ MA⊕ MB⊕ MCD avecM0=vect{1n}et

MA=n

0,X

α0i =0o MB =n

Bβ0j,X

βj0=0o

MC=

Cγ0,X

i

γi,j0 =0,X

j

γi,j0 =0

D=M0⊕ MA⊕ MB⊕ MC

(27)

R ´EECRITURE DES TESTS´

On peut r´e´ecire les tests comme :

I Tester l’absence d’effet principal du facteur A revient `a tester

H0:E[X]∈ M0⊕ MB⊕ MC contre H1:E[X]D I Tester l’absence d’effet principal du facteur B revient `a

tester

H0:E[X]∈ M0⊕ MA⊕ MC contre H1:E[X]D I Tester l’absence d’effet d’interaction revient `a tester

H0:E[X]∈ M0⊕ MA⊕ MB contre H1:E[X]D

(28)

SOMME DES CARRES DES´ ECARTS´

I SCEtotal= PM

0 X

2

la variabilit´e totale dans les donn´ees I SCEA=kPMAXk2la variabilit´e d ˆu au facteur A

I SCEB =kPMBXk2la variabilit´e d ˆu au facteur B I SCEinter=kPMCXk2la variabilit´e d ˆu `a l’interraction I SCEr´esidus=kPDXk2la variabilit´e r´esiduelle non

expliqu´ee par le mod`ele.

Proposition

On a

SCEtotal=SCEA+SCEB+SCEinter+SCEr´esidus.

(29)

TABLEAU DE L’ANOVA `A DEUX FACTEURS

Somme des carr´es des ´ecarts DDL Carr´es moyens

SCEtotal=P

i,j,k

Xi,j,kX.,.,.

2

n1 CMEtotal=SCEn−1total SCEA=JKP

i

Xi,.,.X.,.,.

2

I1 CMEA= SCEI−1A SCEB=IKP

j

X.,j,.X.,.,.

2

J1 CMEB=SCEJ−1B SCEinter=KP

i,j

Xi,j,.Xi,.,.X.,j,.+X.,.,.

2

(I1)(J1) CMEinter=(I−1)(J−1)SCEinter SCEresidu=P

i,j,k

Xi,j,kXi,j,.

2

IJ(K1) CMEresidu=SCEIJ(K−1)residu

(30)

TEST POUR LABSENCE DEFFET PRINCIPAL DU FACTEUR A

Tester l’absence d’effet principal du facteur A revient `a consid´erer la zone de rejet

ZRα=

FA>f1−α,I−1,IJ(K−1)

avec

FA= dim D

kPDXPM0⊕MB⊕MCXk2 (dim(D)dim(M0⊕ MB⊕ MC))kPDXk2

= CMEA

CMEresidu

FI−1,IJ(K−1) sous H0.

(31)

TEST POUR LABSENCE DEFFET PRINCIPAL DU FACTEUR B

Tester l’absence d’effet principal du facteur B revient `a consid´erer la zone de rejet

ZRα=

FB>f1−α,J−1,IJ(K−1)

avec

FB= dim D

kPDXPM0⊕MA⊕MCXk2 (dim(D)dim(M0⊕ MA⊕ MC))kPDXk2

= CMEB

CMEresidu

FJ−1,IJ(K−1) sous H0.

(32)

TEST POUR LABSENCE DEFFET DINTERRACTION

Tester l’absence d’effet d’interraction revient `a consid´erer la zone de rejet

ZRα=

FB>f1−α,(I−1)(J−1),IJ(K−1)

avec

FC= dim D

kPDXPM0⊕MA⊕MBXk2 (dim(D)dim(M0⊕ MA⊕ MB))kPDXk2

= CMEC

CMEresidu

F(I−1)(J−1),IJ(K−1) sous H0.

Références

Documents relatifs

Une exp´erience statistique est la donn´ee d’un objet al´eatoire X `a valeurs dans un espace mesurable ( E , E ) et d’une famille de loi ( P θ ) θ∈Θ suppos´ee contenir la loi

Un test permet de dire avec un certain risque si cette proportion de. ”Face” est seulement due `a la fluctuation d’´echantillonnage ou bien si la pi`ece

X admet une densit´e par rapport `a la mesure de Lebesgue de R d si et seulement si Γ est inversible.. Th´eor`eme de Cochran

Le test de Fisher pr´ec´edent est un cas particulier du test entre

[r]

Tout cela pour dire qu’il est possible d’évaluer une dépense énergétique sur base d’une simple mesure d’accélération. Forts de ce raisonnement, les ingénieurs de la

Le travail a pour objectif de déterminer les combinaisons d'élément nutritif N, P et K optimal pour améliorer la productivité et la rentabilité du riz et du blé dans

Dans la vallée du fleuve Sénégal, environ 120000 ha sont inten- sivement cultivés avec la double culture du riz (FAO, 1997) pendant les deux saisons chaudes et la