Chapitre 8
ANOVA
Analyse de la Variance
1. Objectif de la méthode 2. Approche intuitive
3. Décomposition de la variance 4. ANOVA: le test et le modèle
statistique sous-jacent
1. Objectif de la méthode
On s’intéresse ici encore aux différences de moyenne entre populations.
Par exemple, trois échantillons ont-elles la même moyenne?
ou autrement dit, les différences de moyenne entre les trois échantillons sont-elles significatives ? On utilisera ici la mesure de variance afin de déterminer le caractère significatif, ou non, des différences de moyenne mesurées sur les populations.
Exemple:
Calcul de la réponse d’organismes tests à 7 substances polluantes, en utilisant par exemple leur durée de vie. On aura donc 7 groupes, avec un certain nombre d’observations par groupe.
On calculera une durée de vie moyenne pour chaque groupe et on cherchera à savoir si les différences entre les moyennes obtenues sont significatives ou pas.
On pourrait le faire grâce à un test paramétrique, mais cela impliquerait de comparer 2 à 2 chacun des groupes à tous les autres, soit réaliser C72=21 tests.
Ça reste faisable mais si on réalise le test avec un seuil α=5%, on aura 1 test sur 20 qui apparaîtra significatif alors qu’il ne l’est pas.
On choisit donc de comparer globalement les 7 moyennes entre elles.
== c’est l’objectif de l’ANOVA.
On peut toujours dire:
Variabilité totale =
variabilité naturelle (ou intrinsèque) + variabilité due au facteur étudié
On va chercher à déterminer si la variabilité des moyennes est plus forte que la variabilité naturelle (fluctuations d’échantillonnage).
Chap 8.
1. Objectif de la méthode 2. Approche intuitive
3. Décomposition de la variance 4. ANOVA: le test et le modèle
statistique sous-jacent
2. Approche Intuitive de l ’ ANOVA
K groupes ou niveaux de facteurs ou échantillons: Les populations d’où proviennent ces groupes ont- elles la même moyenne?
Pour cela, on va chercher à quantifier la dispersion de ces moyennes et étudier ses variations.
Dispersion trop grande ne peut être attribuée aux fluctuations d’échantillonnage échantillons sont de moyennes
significativement différentes issus de populations ≠
On considère une var quantitative X qui suit une loi normale N(µ,σ2).
On considère de plus la même variance:
σ
A2= σ
B2= σ
C2H
1:
au moins une moyenne différentePour quantifier la dispersion, on calcul la variance intergroupe S2. Variance résiduelle= variance intragroupe Se2= estimation de σj2. On va donc comparer la variance intergroupe
à la variance résiduelle. On peut utiliser la statistique 2
2
S
eF = S
Forte dispersion
S
2>>S
e2, F >> 1
ouF > Fseuil
α et on pourra rejeter H0 au seuil α. Faible dispersion des moyennesS
2≈ S
e2, F ≈ 1
ouF < Fseuil
α et on ne peut pas rejeter H0.ANOVA == analyse de la variabilité, grâce à une décomposition de la variabilité en deux facteurs:
Variabilité totale = var due au facteur étudié + var naturelle (ou intrinsèque) ou ici
var. due au facteur étudié + var. restante ou résiduelle
Question: la variabilité entre observations pour des groupes différents est-elle plus importante (ou pas) que celle entre observations à l’intérieur de chacun des groupes??
La variabilité est quantifiée par la variance (== somme des carrés de l’écart à la moyenne / ddl) Cas de N obs réparties en K groupes, avec nj obs pour chaque niveau j; variance proportionnelle à:
( ) ∑∑ ( ) ∑ ( )
∑∑
= = = = =− +
−
=
−
K j
g j j K
j n
i
j ij K
j n
i
g
ij X x X n X X
x
j j
1
2 1 1
2 1 1
2
où
∑∑
= =
=
=
K j
n i
ij g
g g
j
x T
N T X
1 1 / avec
Somme de ttes les obs. somme des obs. groupe j Intragroupe
i.e. dispersion des moy. dans chacun des groupes
Intergroupe
i.e. dispersion des moy. de chaque groupe
∑
==
=
nj
i
ij j
j j
j T n T x
X
1
/ avec
et
Chap 8.
1. Objectif de la méthode 2. Approche intuitive
3. Décomposition de la variance 4. ANOVA: le test et le modèle
statistique sous-jacent
3. Décomposition de la
variance
( )
⎟⎟
⎟
⎠
⎞
⎜⎜
⎜
⎝
⎛
− +
⎟⎟
⎟
⎠
⎞
⎜⎜
⎜
⎝
⎛
−
=
−
=
−
∑∑ ∑∑ ∑ ∑
∑∑
= = = = = = = = N T nT n
x T N
x T X
x g
K
j j
K j
j j
K j j
n
i g ij
K j
n
i ij K
j n
i
g ij
j j
j 2
1 2
1 2
1 1 2 2
1 1 2 1 1
2
Si variabilité inter-groupe statistiquement > var intragroupe è moy. des groupes sont ≠
è groupes non issus d’une même population.
ANOVA va donc consister à comparer les deux composantes de la variance en utilisant un test statistique.
Intragroupe Intergroupe
On va organiser les observations sous la forme d’un tableau:
L’ANOVA va consister à comparer les moyennes pour vérifier si elles sont statistiquement diff. ou non.
On peut poser le modèle de l’analyse suivant:
Note: on se limite ici au cas d’une expérience à un facteur, i.e. un seul agent susceptible d’influencer la distribution des variables (e.g. variable=qté récoltée, facteur= fertilisant).
ij i
ij e
x = µ + α +
Déviation
associée au niveau du facteur i
Erreur: petites var associées à tous les autres facteurs.
Chap 8.
1. Objectif de la méthode 2. Approche intuitive
3. Décomposition de la variance 4. ANOVA: le test et le modèle
statistique sous-jacent
4. ANOVA: le test et le modèle
statistique sous-jacent
• H1: au moins une des moyennes est différentes, les groupes ne sont pas homogènes et au moins un αi ≠ 0.
Conditions d’application:
• xij suivent des lois Normales de même variance σ2 (estimée par Se2)
• eij « normaux », indépendants et de même variance σ2 (estimée par Se2).
Statistique du test:
2 2
S
eF = S
Suit une loi de Fisher-Snedecor si H0 est vraie.1 , 1 2
2 −
−
> −
= N K K
e
S F
F S α
H0 rejetée au seuil α si
Var de F-S: Rapport de deux variables suivant une loi de Chi2. Voir démo chap. 2+4;
Comp. 2 variances.
Pour réaliser ce test, on va construire le tableau d’analyse de variance:
Si ni=n, les calculs se simplifient en:
2 2 2
2
e X
e S
n S S
F = S =
Variance desmoyennes
(Note: variance=SDCE/ddl)
(1)
On a vu que les conditions d’application de l’ANOVA sont:
• xij suivent des lois Normales de même variance σ2 (estimée par Se2)
• eij « normaux », indépendants et de même variance σ2 (estimée par Se2).
Il faut donc examiner l’hypothèse de variance constante: H0: σA2=σB2=σC2 Pour cela, il existe des tests statistiques adaptés comme le test de Bartlett.
En 1ere approche rapide, on peut comparer simplement la variance dont la valeur est la + grande à celle dont la valeur est la plus petite avec un test classique de comparaison de 2 variances.
Si on rejette H0, on a 2 solutions de remplacement:
• transformer les observations avec, par exemple, 1 log, sqrt, arcsin, …
• utiliser un test non paramétrique comme le test de Kruskal-Wallis.
(2) Si en réalisant l’ANOVA, l’hypothèse H0 est rejetée, il peut être intéressant de déterminer quel sont les groupes ou les niveaux du facteur étudié dont les moyennes sont significativement différentes.
(3)
Pour le choix de α, l’idée est de réduire sa valeur en fonction du nombre de moyennes comparées.
E.g.: Bonferroni propose d’utiliser: α’=α*J*(J-1)/2, avec J le nombre de moyennes à comparer.