• Aucun résultat trouvé

ANOVA Analyse de la Variance

N/A
N/A
Protected

Academic year: 2021

Partager "ANOVA Analyse de la Variance"

Copied!
10
0
0

Texte intégral

(1)

Chapitre 8

ANOVA

Analyse de la Variance

1.  Objectif de la méthode 2.  Approche intuitive

3.  Décomposition de la variance 4.  ANOVA: le test et le modèle

statistique sous-jacent

1.  Objectif de la méthode

On s’intéresse ici encore aux différences de moyenne entre populations.

Par exemple, trois échantillons ont-elles la même moyenne?

ou autrement dit, les différences de moyenne entre les trois échantillons sont-elles significatives ? On utilisera ici la mesure de variance afin de déterminer le caractère significatif, ou non, des différences de moyenne mesurées sur les populations.

Exemple:

Calcul de la réponse d’organismes tests à 7 substances polluantes, en utilisant par exemple leur durée de vie. On aura donc 7 groupes, avec un certain nombre d’observations par groupe.

On calculera une durée de vie moyenne pour chaque groupe et on cherchera à savoir si les différences entre les moyennes obtenues sont significatives ou pas.

On pourrait le faire grâce à un test paramétrique, mais cela impliquerait de comparer 2 à 2 chacun des groupes à tous les autres, soit réaliser C72=21 tests.

Ça reste faisable mais si on réalise le test avec un seuil α=5%, on aura 1 test sur 20 qui apparaîtra significatif alors qu’il ne l’est pas.

On choisit donc de comparer globalement les 7 moyennes entre elles.

== c’est l’objectif de l’ANOVA.

(2)

On peut toujours dire:

Variabilité totale =

variabilité naturelle (ou intrinsèque) + variabilité due au facteur étudié

On va chercher à déterminer si la variabilité des moyennes est plus forte que la variabilité naturelle (fluctuations d’échantillonnage).

Chap 8.

1.  Objectif de la méthode 2.  Approche intuitive

3.  Décomposition de la variance 4.  ANOVA: le test et le modèle

statistique sous-jacent

2. Approche Intuitive de lANOVA

K groupes ou niveaux de facteurs ou échantillons: Les populations doù proviennent ces groupes ont- elles la même moyenne?

Pour cela, on va chercher à quantifier la dispersion de ces moyennes et étudier ses variations.

Dispersion trop grande ne peut être attribuée aux fluctuations d’échantillonnage échantillons sont de moyennes

significativement différentes issus de populations ≠

(3)

On considère une var quantitative X qui suit une loi normale N(µ,σ2).

On considère de plus la même variance:

σ

A2

= σ

B2

= σ

C2

H

1

:

au moins une moyenne différente

Pour quantifier la dispersion, on calcul la variance intergroupe S2. Variance résiduelle= variance intragroupe Se2= estimation de σj2. On va donc comparer la variance intergroupe

à la variance résiduelle. On peut utiliser la statistique 2

2

S

e

F = S

Forte dispersion

S

2

>>S

e2

, F >> 1

ou

F > Fseuil

α et on pourra rejeter H0 au seuil α. Faible dispersion des moyennes

S

2

S

e2

, F 1

ou

F < Fseuil

α et on ne peut pas rejeter H0.

(4)

ANOVA == analyse de la variabilité, grâce à une décomposition de la variabilité en deux facteurs:

Variabilité totale = var due au facteur étudié + var naturelle (ou intrinsèque) ou ici

var. due au facteur étudié + var. restante ou résiduelle

Question: la variabilité entre observations pour des groupes différents est-elle plus importante (ou pas) que celle entre observations à l’intérieur de chacun des groupes??

La variabilité est quantifiée par la variance (== somme des carrés de l’écart à la moyenne / ddl) Cas de N obs réparties en K groupes, avec nj obs pour chaque niveau j; variance proportionnelle à:

( ) ∑∑ ( ) ∑ ( )

∑∑

= = = = =

+

=

K j

g j j K

j n

i

j ij K

j n

i

g

ij X x X n X X

x

j j

1

2 1 1

2 1 1

2

∑∑

= =

=

=

K j

n i

ij g

g g

j

x T

N T X

1 1 / avec

Somme de ttes les obs. somme des obs. groupe j Intragroupe

i.e. dispersion des moy. dans chacun des groupes

Intergroupe

i.e. dispersion des moy. de chaque groupe

=

=

=

nj

i

ij j

j j

j T n T x

X

1

/ avec

et

Chap 8.

1.  Objectif de la méthode 2.  Approche intuitive

3.  Décomposition de la variance 4.  ANOVA: le test et le modèle

statistique sous-jacent

3. Décomposition de la

variance

(5)

( )

⎟⎟

⎟

⎠

⎞

⎜⎜

⎜

⎝

⎛

− +

⎟⎟

⎟

⎠

⎞

⎜⎜

⎜

⎝

⎛

=

=

∑∑ ∑∑ ∑ ∑

∑∑

= = = = = = = = N T n

T n

x T N

x T X

x g

K

j j

K j

j j

K j j

n

i g ij

K j

n

i ij K

j n

i

g ij

j j

j 2

1 2

1 2

1 1 2 2

1 1 2 1 1

2

Si variabilité inter-groupe statistiquement > var intragroupe è  moy. des groupes sont ≠

è groupes non issus d’une même population.

ANOVA va donc consister à comparer les deux composantes de la variance en utilisant un test statistique.

Intragroupe Intergroupe

(6)

On va organiser les observations sous la forme d’un tableau:

L’ANOVA va consister à comparer les moyennes pour vérifier si elles sont statistiquement diff. ou non.

On peut poser le modèle de l’analyse suivant:

Note: on se limite ici au cas d’une expérience à un facteur, i.e. un seul agent susceptible d’influencer la distribution des variables (e.g. variable=qté récoltée, facteur= fertilisant).

ij i

ij e

x = µ + α +

Déviation

associée au niveau du facteur i

Erreur: petites var associées à tous les autres facteurs.

Chap 8.

1.  Objectif de la méthode 2.  Approche intuitive

3.  Décomposition de la variance 4.  ANOVA: le test et le modèle

statistique sous-jacent

4. ANOVA: le test et le modèle

statistique sous-jacent

(7)

•  H1: au moins une des moyennes est différentes, les groupes ne sont pas homogènes et au moins un αi ≠ 0.

Conditions d’application:

•  xij suivent des lois Normales de même variance σ2 (estimée par Se2)

•  eij « normaux », indépendants et de même variance σ2 (estimée par Se2).

Statistique du test:

2 2

S

e

F = S

Suit une loi de Fisher-Snedecor si H0 est vraie.

1 , 1 2

2 −

> −

= N K K

e

S F

F S α

H0 rejetée au seuil α si

Var de F-S: Rapport de deux variables suivant une loi de Chi2. Voir démo chap. 2+4;

Comp. 2 variances.

(8)

Pour réaliser ce test, on va construire le tableau danalyse de variance:

Si ni=n, les calculs se simplifient en:

2 2 2

2

e X

e S

n S S

F = S =

Variance des

moyennes

(Note: variance=SDCE/ddl)

(9)
(10)

(1)

On a vu que les conditions d’application de l’ANOVA sont:

•  xij suivent des lois Normales de même variance σ2 (estimée par Se2)

•  eij « normaux », indépendants et de même variance σ2 (estimée par Se2).

Il faut donc examiner l’hypothèse de variance constante: H0: σA2B2C2 Pour cela, il existe des tests statistiques adaptés comme le test de Bartlett.

En 1ere approche rapide, on peut comparer simplement la variance dont la valeur est la + grande à celle dont la valeur est la plus petite avec un test classique de comparaison de 2 variances.

Si on rejette H0, on a 2 solutions de remplacement:

•  transformer les observations avec, par exemple, 1 log, sqrt, arcsin, …

•  utiliser un test non paramétrique comme le test de Kruskal-Wallis.

(2) Si en réalisant l’ANOVA, l’hypothèse H0 est rejetée, il peut être intéressant de déterminer quel sont les groupes ou les niveaux du facteur étudié dont les moyennes sont significativement différentes.

(3)

Pour le choix de α, l’idée est de réduire sa valeur en fonction du nombre de moyennes comparées.

E.g.: Bonferroni propose d’utiliser: α’=α*J*(J-1)/2, avec J le nombre de moyennes à comparer.

Références

Documents relatifs

avec la même exactitude de moitié d’une certaine unité et en arrondis- sant le résultat obtenu jusqu’à un nombre entier de ces unités, nous ob- tenions n

Peut-être qu’une différence existe mais le bruit nous empêche de la détecter. On ne rejette

Stockez le résultat de cetteopération dans une variable que vous appellerez donneeAddition.. Quel est le type de donneeAddition (variable numerique, vecteur,

Un groupement commercial s’intéresse particulièrement à la consommation annuelle des pro- duits contenus dans la nomenclature 17 de l’INSEE c’est-à-dire, la consommation annuelle

A regression of diastolic on just test would involve just qualitative predictors, a topic called Analysis of Variance or ANOVA although this would just be a simple two

La surface d’un quadrilatère est maximum quand celui-ci est inscriptible dans un cercle.. Cette propriété résulte de la formule de Bretscheider qui donne l’aire A

2) Dans le cadre d'une étude sur la situation des étudiants au sein de l'université de Liège, des chercheurs ont voulu savoir si la fréquence des sorties et la somme d'argent

4) On désire déterminer si la quantité moyenne de nitrate varie d'une station à une autre le long d'une rivière. Pour cela, on prélève en 10 points une certaine quantité d'eau