ANOVA Analyse de la Variance

(1)

Chapitre 8

ANOVA

Analyse de la Variance

1.  Objectif de la méthode 2.  Approche intuitive

3.  Décomposition de la variance 4.  ANOVA: le test et le modèle

statistique sous-jacent

1.  Objectif de la méthode

On s’intéresse ici encore aux différences de moyenne entre populations.

Par exemple, trois échantillons ont-elles la même moyenne?

ou autrement dit, les différences de moyenne entre les trois échantillons sont-elles significatives ? On utilisera ici la mesure de variance afin de déterminer le caractère significatif, ou non, des différences de moyenne mesurées sur les populations.

Exemple:

Calcul de la réponse d’organismes tests à 7 substances polluantes, en utilisant par exemple leur durée de vie. On aura donc 7 groupes, avec un certain nombre d’observations par groupe.

On calculera une durée de vie moyenne pour chaque groupe et on cherchera à savoir si les différences entre les moyennes obtenues sont significatives ou pas.

On pourrait le faire grâce à un test paramétrique, mais cela impliquerait de comparer 2 à 2 chacun des groupes à tous les autres, soit réaliser C₇²=21 tests.

Ça reste faisable mais si on réalise le test avec un seuil α=5%, on aura 1 test sur 20 qui apparaîtra significatif alors qu’il ne l’est pas.

On choisit donc de comparer globalement les 7 moyennes entre elles.

== c’est l’objectif de l’ANOVA.

(2)

On peut toujours dire:

Variabilité totale =

variabilité naturelle (ou intrinsèque) + variabilité due au facteur étudié

On va chercher à déterminer si la variabilité des moyennes est plus forte que la variabilité naturelle (fluctuations d’échantillonnage).

Chap 8.

2. Approche Intuitive de l ’ ANOVA

K groupes ou niveaux de facteurs ou échantillons: Les populations d’où proviennent ces groupes ont- elles la même moyenne?

Pour cela, on va chercher à quantifier la dispersion de ces moyennes et étudier ses variations.

Dispersion trop grande ne peut être attribuée aux fluctuations d’échantillonnage échantillons sont de moyennes

significativement différentes issus de populations ≠

(3)

On considère une var quantitative X qui suit une loi normale N(µ,σ²).

On considère de plus la même variance:

σ

_A²

= σ

_B²

= σ

_C²

H

₁

:

au moins une moyenne différente

Pour quantifier la dispersion, on calcul la variance intergroupe S². Variance résiduelle= variance intragroupe S_e²= estimation de σ_j². On va donc comparer la variance intergroupe

à la variance résiduelle. On peut utiliser la statistique ²

2

S

e

F = S

Forte dispersion

S

²

>>S

_e²

, F >> 1

ou

F > Fseuil

_α et on pourra rejeter H0 au seuil α. Faible dispersion des moyennes

S

²

≈ S

_e²

, F ≈ 1

ou

F < Fseuil

_α et on ne peut pas rejeter H0.

(4)

ANOVA == analyse de la variabilité, grâce à une décomposition de la variabilité en deux facteurs:

Variabilité totale = var due au facteur étudié + var naturelle (ou intrinsèque) ou ici

var. due au facteur étudié + var. restante ou résiduelle

Question: la variabilité entre observations pour des groupes différents est-elle plus importante (ou pas) que celle entre observations à l’intérieur de chacun des groupes??

La variabilité est quantifiée par la variance (== somme des carrés de l’écart à la moyenne / ddl) Cas de N obs réparties en K groupes, avec n_j obs pour chaque niveau j; variance proportionnelle à:

( ) ∑∑ ( ) ∑ ( )

∑∑

= = = = =

− +

−

=

−

K j

g j j K

j n

i

j ij K

j n

i

g

ij ^X ^x ^X ⁿ ^X ^X

x

j j

1

2 1 1

2

où

∑∑

= =

=

K j

n i

ij g

g g

j

x T

N T X

1 1 / avec

Somme de ttes les obs. somme des obs. groupe j Intragroupe

i.e. dispersion des moy. dans chacun des groupes

Intergroupe

i.e. dispersion des moy. de chaque groupe

∑

=

nj

i

ij j

j j

j ^T ⁿ ^T ^x

X

1

/ avec

et

Chap 8.

3. Décomposition de la

variance

(5)

( )

⎟⎟

⎟

⎠

⎞

⎜⎜

⎜

⎝

⎛

− +

⎟⎟

⎟

⎠

⎞

⎜⎜

⎜

⎝

⎛

−

=

−

=

−

∑∑ ∑∑ ∑ ∑

∑∑

= = = = = = = = N T n

T n

x T N

x T X

x ^g

K

j j

K j

j j

K j j

n

i g ij

K j

n

i ij K

j n

i

g ij

j j

j 2

1 2

1 1 2 2

1 1 2 1 1

2

Si variabilité inter-groupe statistiquement > var intragroupe è  moy. des groupes sont ≠

è groupes non issus d’une même population.

ANOVA va donc consister à comparer les deux composantes de la variance en utilisant un test statistique.

Intragroupe Intergroupe

(6)

On va organiser les observations sous la forme d’un tableau:

L’ANOVA va consister à comparer les moyennes pour vérifier si elles sont statistiquement diff. ou non.

On peut poser le modèle de l’analyse suivant:

Note: on se limite ici au cas d’une expérience à un facteur, i.e. un seul agent susceptible d’influencer la distribution des variables (e.g. variable=qté récoltée, facteur= fertilisant).

ij i

ij ^e

x = µ + α +

Déviation

associée au niveau du facteur i

Erreur: petites var associées à tous les autres facteurs.

Chap 8.

4. ANOVA: le test et le modèle

statistique sous-jacent

(7)

•  H1: au moins une des moyennes est différentes, les groupes ne sont pas homogènes et au moins un αi ≠ 0.

Conditions d’application:

•  x_ij suivent des lois Normales de même variance σ² (estimée par S_e²)

•  e_ij « normaux », indépendants et de même variance σ² (estimée par S_e²).

Statistique du test:

2 2

S

e

F = S

Suit une loi de Fisher-Snedecor si H₀ est vraie.

1 , 1 2

2 −

−

> −

= _N ^K _K

e

S F

F S _α

H₀ rejetée au seuil α si

Var de F-S: Rapport de deux variables suivant une loi de Chi2. Voir démo chap. 2+4;

Comp. 2 variances.

(8)

Pour réaliser ce test, on va construire le tableau d’analyse de variance:

Si n_i=n, les calculs se simplifient en:

2 2 2

2 e X

e S

n S S

F = S =

Variance des

moyennes

(Note: variance=SDCE/ddl)

(9)

(10)

(1)

On a vu que les conditions d’application de l’ANOVA sont:

•  x_ij suivent des lois Normales de même variance σ² (estimée par S_e²)

•  e_ij « normaux », indépendants et de même variance σ² (estimée par S_e²).

Il faut donc examiner l’hypothèse de variance constante: H₀: σ_A²=σ_B²=σ_C² Pour cela, il existe des tests statistiques adaptés comme le test de Bartlett.

En 1ere approche rapide, on peut comparer simplement la variance dont la valeur est la + grande à celle dont la valeur est la plus petite avec un test classique de comparaison de 2 variances.

Si on rejette H0, on a 2 solutions de remplacement:

•  transformer les observations avec, par exemple, 1 log, sqrt, arcsin, …

•  utiliser un test non paramétrique comme le test de Kruskal-Wallis.

(2) Si en réalisant l’ANOVA, l’hypothèse H0 est rejetée, il peut être intéressant de déterminer quel sont les groupes ou les niveaux du facteur étudié dont les moyennes sont significativement différentes.

(3)

Pour le choix de α, l’idée est de réduire sa valeur en fonction du nombre de moyennes comparées.

E.g.: Bonferroni propose d’utiliser: α’=α*J*(J-1)/2, avec J le nombre de moyennes à comparer.

ANOVA Analyse de la Variance

Chapitre 8

ANOVA

Analyse de la Variance

1. Objectif de la méthode

2. Approche Intuitive de l ’ ANOVA

σ

= σ

= σ

H

:

S

F = S

S

>>S

, F >> 1

F > Fseuil

S

≈ S

, F ≈ 1

F < Fseuil

( ) ∑∑ ( ) ∑ ( )

∑∑

∑∑

∑

3. Décomposition de la

variance

( )

∑∑ ∑∑ ∑ ∑

∑∑

ij i

ij e

x = µ + α +

4. ANOVA: le test et le modèle

statistique sous-jacent

S

F = S

1 , 1 2

2 −

−

> −

= N K K

e

S F

F S α

2 2 2

2

e X

e S

n S S

F = S =

1.  Objectif de la méthode

ij ^e

= _N ^K _K

F S _α