ANOVA : introduction
ANOVA : introduction
http://christophe.genolini.free.fr Licence Stat-info CM5a : 2
Définition Définition
• L’ ANOVA est l’analyse des variances. La comparaison des variances nous dira si les moyennes sont
significativement différentes
Problème Problème
• On cherche a détecter d’un phénomène particulier :
– Flûtiste exceptionnelle ou moyenne – Groupe de TD super bon
– Caillou dans la mer
http://christophe.genolini.free.fr Licence Stat-info CM5a : 4
Flûtiste Flûtiste
Silence Cécile seule
Cécile avec les autres Les autres sans Cécile
Quiz : je mélange…
Quiz : je mélange…
http://christophe.genolini.free.fr Licence Stat-info CM5a : 6
Quiz : je mélange…
Quiz : je mélange…
Trop facile : Cécile seule
Ultra facile : Silence
Heu…
Ben…
Pourquoi ? Pourquoi ?
La variance ici est nulle Ici, la variance est de 0,5 C’est une grosse différence.
Elle EST significative
Ici, la variance ici est 17,43 Ici, la variance est de 17,93 Entre 17,43 et 17,93
la différence N’EST PAS significative
http://christophe.genolini.free.fr Licence Stat-info CM5a : 8
Intuitivement Intuitivement
• Vinter (Variance Inter) est la variance que l’on cherche à détecter.
• Vintra (Variance Intra) est le « bruit », la variabilité du au hasard (variabilité biologique)
Intuitivement Intuitivement
Vintra = 0 Vinter = 0,5
Vintra = 17,43 Vinter = 0,5
On détecte la flûte ou son absence
On détecte l’orchestre mais la flûte seule est impossible à entendre
http://christophe.genolini.free.fr Licence Stat-info CM5a : 10
Formulation du problème Formulation du problème
• On dispose de plusieurs groupes de donnée (ici, des bandes sonores). On cherche à détecter quelque chose (ici, la flûte)
• Pour le savoir, on calcule Vintra et Vinter
– Vintra mesure la variabilité biologique (ici, le bruit)
– Vinter mesure ce que l’on cherche vraiment (ici, la flûte)
• Si Vinter est grand devant Vintra, on a détecté quelque chose.
• Si Vinter est petit devant Vintra, la variabilité biologique est trop forte, elle empêche toute détection.
La flûte La flûte
Vintra = 0 Vinter = 0,5
Vintra = 17,43 Vinter = 0,5
On détecte la présence d’une flûte dans le groupe 2
On ne détecte pas la présence
http://christophe.genolini.free.fr Licence Stat-info CM5a : 12
Décomposition en facteurs
Décomposition en facteurs
Autre approche : Mini QCM Autre approche : Mini QCM
La note de l’élève 2 groupe 1 (Yvon) est 19. Pourquoi ?
Groupe 1 Groupe 2 Groupe 3
Elève 1 16 16 11
Elève 2 19 10 12
Elève 3 13 11 5
Elève 4 14 14 7
Elève 5 17 15 12
Elève 6 18 8 6
Elève 7 13 10 13
Elève 8 13 15 9
Elève 9 12 9 6
Moyenne 15,00 12,00 9,00
Moyenne générale 12
http://christophe.genolini.free.fr Licence Stat-info CM5a : 14
Étude de la note d’Yvon Étude de la note d’Yvon
• La moyenne générale est de 12.
– Yvon a +7 par rapport à la moyenne générale
• La moyenne de groupe 1 est de 15
– Yvon a +4 par rapport à la moyenne du groupe 1 – Le groupe 1 a +3 par rapport à la moyenne générale
Étude de la note d’Yvon Étude de la note d’Yvon
• On peut donc « expliquer » la note d’Yvon comme
19 = 12 + 3 + 4
Note d’Yvon
Moyenne générale
(contrôle facile) Effet du groupe 1 (super prof)
Particularité d’Yvon (sa variabilité biologique :
Yvon est plutôt bon)
http://christophe.genolini.free.fr Licence Stat-info CM5a : 16
Étude de la note de Justin Étude de la note de Justin
• Justin, élève 4 groupe 1 à 14
• On peut donc « expliquer » la note de Justin : 14 = 12 + 3 - 1
Note de Justin
Moyenne générale
(contrôle facile) Effet du groupe 1 (super prof)
Particularité de Justin
Étude de la note de Gaston Étude de la note de Gaston
• Gaston, élève 7 groupe 3 à 13
• On peut donc « expliquer » la note de Gaston : 13 = 12 - 3 + 4
Note de Gaston
Moyenne générale
(contrôle facile) Effet du groupe 3 (prof pas terrible)
Particularité de Gaston
http://christophe.genolini.free.fr Licence Stat-info CM5a : 18
Formalisation Formalisation
• On peut donc « expliquer » la note d’Yvon comme
19 = 12 + 3 + 4
Note
Moyenne générale Variabilité entre les groupes
Variabilité personnelle, à l’intérieur du groupe
Que cherche-t-on ? Que cherche-t-on ?
• La variabilité personnelle dépend de nombreux facteurs
– On ne peut pas l’expliquer.
• C’est la variabilité entre groupes qui nous intéresse ici
– Si les groupes ont des moyennes significativement différentes, on pourra ensuite examiner des causes éventuelles : différences entre les profs, meilleur matériel, meilleur emploi du temps…
http://christophe.genolini.free.fr Licence Stat-info CM5a : 20
Formellement
Formellement
H0 H0
• Hypothèse H0 : il n’y a pas de différence entre les groupes.
Ils ont même moyenne et même variance
• On ne s’intéresse pas au groupe mais aux populations qu’ils représentent : on travaille avec
http://christophe.genolini.free.fr Licence Stat-info CM5a : 22
Calcul de Vintra Calcul de Vintra
• Notations
– k est le nombre de groupe (ici, k=3)
– n est le nombre d’élève dans chaque groupe (n=9) – N est le nombre total d’élève (N=27)
i2 est la variance du groupe i (12=1,5) – Xi est la moyenne du groupe i (X1=15) – X est la moyenne générale (X=12)
Groupe 1 Groupe 2 Groupe 3
Elève 1 16 12 12
Elève 2 15 10 9
Elève 3 14 11 7
Elève 4 16 14 7
Elève 5 17 13 10
Elève 6 15 12 9
Elève 7 14 10 10
Elève 8 13 15 9
Elève 9 15 11 8
Moyenne 15,0 12,0 9,0
Variance 1,5 3,0 2,5
Calcul de Vintra Calcul de Vintra
• La variance d’un groupe représente son hétérogénéité ou sa variabilité biologique interne.
• Vintra est la variabilité biologique interne de tous les groupe (le « bruit » global).
Pour l’évaluer, on prend simplement la moyenne des variances des groupes :
Groupe 1 Groupe 2 Groupe 3
Elève 1 16 12 12
Elève 2 15 10 9
Elève 3 14 11 7
Elève 4 16 14 7
Elève 5 17 13 10
Elève 6 15 12 9
Elève 7 14 10 10
Elève 8 13 15 9
Elève 9 15 11 8
Moyenne 15,0 12,0 9,0
Variance 1,5 3,0 2,5
http://christophe.genolini.free.fr Licence Stat-info CM5a : 24
Les clones sont parmi nous…
Les clones sont parmi nous…
• Si on travaillait sur des « clones » (aucune différence entre les individus d’un groupe), il n’y aurait aucune variance à l’intérieur des groupes :
Groupe 1 Groupe 2 Groupe 3
Clone 1 15 12 9
Clone 2 15 12 9
Clone 3 15 12 9
Clone 4 15 12 9
Clone 5 15 12 9
Clone 6 15 12 9
Clone 7 15 12 9
Clone 8 15 12 9
Clone 9 15 12 9
Moyenne 15,0 12,0 9,0
Variance 0,0 0,0 0,0
3 0 0 0 k 0
Vintra σ
i2
Calcul de Vinter Calcul de Vinter
• La moyenne d’un groupe est une mesure du niveau moyen du groupe.
• Vinter est la variabilité entre les groupes. Pour l’évaluer, on prend simplement la variance des moyennes multipliés par l’effectif :
81 12
9 12
12 12
9 15 X
n X Vinter
2 2
2 2
i
Groupe 1 Groupe 2 Groupe 3
Elève 1 16 12 12
Elève 2 15 10 9
Elève 3 14 11 7
Elève 4 16 14 7
Elève 5 17 13 10
Elève 6 15 12 9
Elève 7 14 10 10
Elève 8 13 15 9
Elève 9 15 11 8
Moyenne 15,0 12,0 9,0
Variance 1,5 3,0 2,5
http://christophe.genolini.free.fr Licence Stat-info CM5a : 26
Calcul pratique (réveil !!!) Calcul pratique (réveil !!!)
Groupe 1 Groupe 2 Groupe 3
Elève 1 16 12 12
Elève 2 15 10 9
Elève 3 14 11 7
Elève 4 16 14 7
Elève 5 17 13 10
Elève 6 15 12 9
Elève 7 14 10 10
Elève 8 13 15 9
Elève 9 15 11 8
Moyenne 15,0 12,0 9,0 Vinter = 9 x variance(B12:D12) = 81,0
Variance 1,5 3,0 2,5 Vintra = Moyenne(B13:D13) = 2,3
Des clones partout Des clones partout
G1 G2 G3
C1 12 12 12
C2 12 12 12
C3 12 12 12
C4 12 12 12
Moy 12 12 12 Vinter 0
Var 0 0 0 Vintra 0
G1 G2 G3
C1 14 12 10
C2 14 12 10
C3 14 12 10
C4 14 12 10
Moy 14 12 10 Vinter 16
Var 0 0 0 Vintra 0
G1 G2 G3
C1 17 14 18
C2 13 17 12
C3 11 5 6
C4 7 12 12
Moy 12 12 12 Vinter 0
Var 17,333 26 24 Vintra 22,4
G1 G2 G3
C1 19 14 16
C2 15 17 10
C3 13 5 4
C4 9 12 10
Moy 14 12 10 Vinter 16
Var 17,333 26 24 Vintra 22,4
Les profs et les élèves sont des clones : Pas de variabilité du tout
Les profs sont des clones :
Variabilité à l’intérieur des groupes, mais pas entre les groupes
Les élèves sont des clones : Situation réelle :
http://christophe.genolini.free.fr Licence Stat-info CM5a : 28
Retour au problème Retour au problème
• Y a-t-il des différences entre les groupes ?
Retour au problème Retour au problème
• Y a-t-il des différences entre les groupes ? Vinter = 0
La réponse est trivialement non !
http://christophe.genolini.free.fr Licence Stat-info CM5a : 30
Retour au problème Retour au problème
• Y a-t-il des différences entre les groupes ?
G1 G2 G3
C1 12 12 12
C2 12 12 12
C3 12 12 12
C4 12 12 12
Moy 12 12 12 Vinter 0
Var 0 0 0 Vintra 0
Les profs et les élèves sont des clones : Pas de variabilité du tout
Vinter = 0
La réponse est trivialement non car Vinter=0 indique l’égalité entre les moyennes des groupes
G1 G2 G3
C1 17 14 18
C2 13 17 12
C3 11 5 6
C4 7 12 12
Moy 12 12 12 Vinter 0
Var 17,333 26 24 Vintra 22,4
Les profs sont des clones :
Variabilité à l’intérieur des groupes, mais pas entre les groupes
Retour au problème Retour au problème
• Y a-t-il des différences entre les groupes ?
http://christophe.genolini.free.fr Licence Stat-info CM5a : 32
Retour au problème Retour au problème
• Y a-t-il des différences entre les groupes ? Vinter = 16
Vintra = 0
La réponse est oui car on détecte une différence entre les moyennes sans que des variations internes (bruit) gênent cette détection…
Retour au problème Retour au problème
• Y a-t-il des différences entre les groupes ? Vinter = 16
Vintra = 0
La réponse est oui car on détecte une différence entre les moyennes sans que des variations internes (bruit) gênent cette détection…
G1 G2 G3
C1 14 12 10
C2 14 12 10
C3 14 12 10
C4 14 12 10
Moy 14 12 10 Vinter 16
Var 0 0 0 Vintra 0
Les élèves sont des clones :
http://christophe.genolini.free.fr Licence Stat-info CM5a : 34
Retour au problème Retour au problème
• Y a-t-il des différences entre les groupes ?
Retour au problème Retour au problème
• Y a-t-il des différences entre les groupes ? Vinter = 16
Vintra = 22,4
La réponse est moins nette. Peut-être qu’une différence existe mais le bruit nous empêche de la détecter. On ne rejette pas H0
http://christophe.genolini.free.fr Licence Stat-info CM5a : 36
Retour au problème Retour au problème
• Y a-t-il des différences entre les groupes ? Vinter = 16
Vintra = 22,4
G1 G2 G3
C1 19 14 16
C2 15 17 10
C3 13 5 4
C4 9 12 10
Moy 14 12 10 Vinter 16
Var 17,333 26 24 Vintra 22,4
Situation réelle :
Variabilité à l’intérieur des groupes et également entre les groupes
La réponse est moins nette. Peut-être qu’une différence existe mais le bruit nous empêche de la détecter. On ne rejette pas H0
Trop de bruit Détection impossible
Comment conclure ? Comment conclure ?
• Si Vinter=16 et Vintra=0 : on rejette H0
• Si Vinter=0 et Vintra=22,4 : on rejette H0
• Entre les deux, si Vinter=18 et Vintra=7 ?
On utilise le test pour comparer les variances : le F de Fisher
http://christophe.genolini.free.fr Licence Stat-info CM5a : 38
F de Fisher
F de Fisher
F de Fisher : comme d’hab F de Fisher : comme d’hab
• On calcule le F observé
• On calcule la probabilité de F
• Autre méthode : lecture du F théorique sur une table
– Si FObs > FTh, la différence est significative, on rejette H0
– Si FObs < FTh, la différence n’est pas significative, on ne rejette pas H0
http://christophe.genolini.free.fr Licence Stat-info CM5a : 40
Calcul du F observé Calcul du F observé
Vintra Vinter FObs
• Puis la probabilité d’obtenir un tel F si SEULEMENT la variabilité biologique est en jeu est :
Loi.F(Fobs,DDL dessous,DDL dessus)
Calcul des DDL Calcul des DDL
• V inter est une variance
– Son DDL est de le nombre de groupe moins 1 – DDL inter=k-1
• Vintra est la moyenne des variances
– Son DDL est la somme des DDL de chacun des groupes – Chaque groupe a un DDL de n-1
– DDL intra = n-1 + n-1 + … + n-1 = N-k
http://christophe.genolini.free.fr Licence Stat-info CM5a : 42
Exemple Exemple
• DDL inter = k-1 = 3-1 = 2
• DDL intra = N-k = 27 – 3 = 24
Groupe 1 Groupe 2 Groupe 3
Elève 1 16 12 12
Elève 2 15 10 9
Elève 3 14 11 7
Elève 4 16 14 7
Elève 5 17 13 10
Elève 6 15 12 9
Elève 7 14 10 10
Elève 8 13 15 9
Elève 9 15 11 8
Moyenne 15,0 12,0 9,0 Vinter = 9 x variance(B12:D12) = 81,0 Variance 1,5 3,0 2,5 Vintra = Moyenne(B13:D13) = 2,3
2,381 35,2 Vintra
Vinter
FObs
Lecture du F théorique Lecture du F théorique
• Cette fois-ci, on lit le F sur la table 5% (parce ce que on doit tester Vinter/Vintra, mais pas Vintra/Vinter
• FTh=3,40
FObs étant plus grand que FTh, on peut rejeter H0 :
Risque 5%
1 2 3 4 5 6
1 161,40 199,50 215,70 224,60 234,20 …
2 18,51 19,00 19,16 19,25 19,30 …
3 10,13 9,55 9,28 9,12 9,01 …
… … … … … … …
24 4,26 3,40 3,01 2,78 2,62 …
… … … … … … …
DDL de la variance du DESSUS
DDL de la variance du
DESSOUS
http://christophe.genolini.free.fr Licence Stat-info CM5a : 44
Risque 5%
Risque 5%
• On veut savoir si Vinter/Vintra est grand
– On teste donc au risque 5%
• Pour la comparaison des variances, on voulait savoir si V1/V2 était grand OU si V2/V1 était grand.
– On devait donc tester V1/V2 au risque 2,5% et V2/V1 au risque 2,5%
– Grâce a une astuce, on avait qu’un seul des deux tests à faire, mais ca ne changeait rien au seuil
Groupes de taille variable
Groupes de taille variable
http://christophe.genolini.free.fr Licence Stat-info CM5a : 46
Vintra : Groupes de taille variable Vintra : Groupes de taille variable
• Rappel : pour les groupes de même taille :
– Vintra = moyenne des variances =
• Pour des groupes de taille variable :
– Vintra = moyenne des variances PONDEREE par les DDL :
• Si les k groupes ont la même taille n, les formules coïncident
k σi2
DDLi σ Vintra DDLi
i2
k σ k
n σ n
n σ n DDLi
σ
DDLi i2 i2
i2
i2
Vinter : Groupes de taille variable Vinter : Groupes de taille variable
• Rappel : pour les groupes de même taille :
– Vinter = n x variances des moyennes =
• Pour des groupes de taille variable :
– Vinter = variances des moyennes PONDEREE par les tailles :
• Si les groupes ont la même taille n, les formules coïncident
1 k
X X n 1
k
X n X
2 i
2 i
1 k
X X Vinter n
2 i i
2
2
2
http://christophe.genolini.free.fr Licence Stat-info CM5a : 48
Exemple : mini QCM Exemple : mini QCM
Gr 1 Gr 2 Gr 3
20 20 20
15 20 20
15 20 20
15 16,7 20 11,2 16,7 16,7
10 15 15
6,7 15 15
5 10
5 0
4,5 5
Total Moyenne Xi 10,2 17,6 15,2 13,8 Variance si 29,2 5,4 44,1
Nombre ni 11 7 9 27
DDLi 10 6 8 24
ni x (Xi-X)² 140,8 102,6 17,5 Vinter = somme[ni x (Xi-X)²] / (k-1) (140,8+102,6+17,5)/2= 130,5 DDLi x si 292,2 32,5 352,5 Vintra = somme(DDLi x si) / somme(DDLi) (292,2+32,5+352,5)/(10+6+8)= 28,2 Fobs=Vinter/Vintra=4,624
Fth= 3,40
Conclusion Conclusion
• L’hypothèse « toutes les moyennes sont les mêmes » est rejetée.
toutes les moyennes ne sont pas les mêmes
MAIS on ne sait pas ou sont les différences
http://christophe.genolini.free.fr Licence Stat-info CM5a : 50
Conclusion Conclusion
• Les moyennes sont 10,2 ; 15,2 et 17,6
• On sait qu’il existe au moins une différence significative.
– Entre 10,2 et 15,2 ? – Entre 10,6 et 17,6 ? – Entre 15,2 et 17,6 ?
Pour le savoir : T de Student…
Pour le savoir : T de Student…
• Rappel : pour comparer deux moyennes :
• Ici, au lieu de calculer la variance commune, on va utiliser Vintra
MS Com APA
MS APA
N1 N1
σ
X T X
2 N
N )² (N 1) (s )² (s
1) σ (N
MS APA
MS MS
GAPA Com APA
G2 G1
G2 G1
N1 N1
Vintra
X T X
http://christophe.genolini.free.fr Licence Stat-info CM5a : 52
Pour le savoir : T de Student…
Pour le savoir : T de Student…
1,947 71
111 28,2
15,2
T 10,2
• DDL des 2 groupes = (11-1) + (7-1) = 16
• T th = 2,120
La différence entre 10,2 et 15,2 N’est PAS significative