• Aucun résultat trouvé

ANOVA : introduction ANOVA : introduction

N/A
N/A
Protected

Academic year: 2022

Partager "ANOVA : introduction ANOVA : introduction"

Copied!
52
0
0

Texte intégral

(1)

ANOVA : introduction

ANOVA : introduction

(2)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 2

Définition Définition

• L’ ANOVA est l’analyse des variances. La comparaison des variances nous dira si les moyennes sont

significativement différentes

(3)

Problème Problème

• On cherche a détecter d’un phénomène particulier :

– Flûtiste exceptionnelle ou moyenne – Groupe de TD super bon

– Caillou dans la mer

(4)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 4

Flûtiste Flûtiste

Silence Cécile seule

Cécile avec les autres Les autres sans Cécile

(5)

Quiz : je mélange…

Quiz : je mélange…

(6)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 6

Quiz : je mélange…

Quiz : je mélange…

Trop facile : Cécile seule

Ultra facile : Silence

Heu…

Ben…

(7)

Pourquoi ? Pourquoi ?

La variance ici est nulle Ici, la variance est de 0,5 C’est une grosse différence.

Elle EST significative

Ici, la variance ici est 17,43 Ici, la variance est de 17,93 Entre 17,43 et 17,93

la différence N’EST PAS significative

(8)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 8

Intuitivement Intuitivement

• Vinter (Variance Inter) est la variance que l’on cherche à détecter.

• Vintra (Variance Intra) est le « bruit », la variabilité du au hasard (variabilité biologique)

(9)

Intuitivement Intuitivement

Vintra = 0 Vinter = 0,5

Vintra = 17,43 Vinter = 0,5

On détecte la flûte ou son absence

On détecte l’orchestre mais la flûte seule est impossible à entendre

(10)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 10

Formulation du problème Formulation du problème

• On dispose de plusieurs groupes de donnée (ici, des bandes sonores). On cherche à détecter quelque chose (ici, la flûte)

• Pour le savoir, on calcule Vintra et Vinter

– Vintra mesure la variabilité biologique (ici, le bruit)

– Vinter mesure ce que l’on cherche vraiment (ici, la flûte)

• Si Vinter est grand devant Vintra, on a détecté quelque chose.

• Si Vinter est petit devant Vintra, la variabilité biologique est trop forte, elle empêche toute détection.

(11)

La flûte La flûte

Vintra = 0 Vinter = 0,5

Vintra = 17,43 Vinter = 0,5

On détecte la présence d’une flûte dans le groupe 2

On ne détecte pas la présence

(12)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 12

Décomposition en facteurs

Décomposition en facteurs

(13)

Autre approche : Mini QCM Autre approche : Mini QCM

La note de l’élève 2 groupe 1 (Yvon) est 19. Pourquoi ?

Groupe 1 Groupe 2 Groupe 3

Elève 1 16 16 11

Elève 2 19 10 12

Elève 3 13 11 5

Elève 4 14 14 7

Elève 5 17 15 12

Elève 6 18 8 6

Elève 7 13 10 13

Elève 8 13 15 9

Elève 9 12 9 6

Moyenne 15,00 12,00 9,00

Moyenne générale 12

(14)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 14

Étude de la note d’Yvon Étude de la note d’Yvon

• La moyenne générale est de 12.

– Yvon a +7 par rapport à la moyenne générale

• La moyenne de groupe 1 est de 15

– Yvon a +4 par rapport à la moyenne du groupe 1 – Le groupe 1 a +3 par rapport à la moyenne générale

(15)

Étude de la note d’Yvon Étude de la note d’Yvon

• On peut donc « expliquer » la note d’Yvon comme

19 = 12 + 3 + 4

Note d’Yvon

Moyenne générale

(contrôle facile) Effet du groupe 1 (super prof)

Particularité d’Yvon (sa variabilité biologique :

Yvon est plutôt bon)

(16)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 16

Étude de la note de Justin Étude de la note de Justin

• Justin, élève 4 groupe 1 à 14

• On peut donc « expliquer » la note de Justin : 14 = 12 + 3 - 1

Note de Justin

Moyenne générale

(contrôle facile) Effet du groupe 1 (super prof)

Particularité de Justin

(17)

Étude de la note de Gaston Étude de la note de Gaston

• Gaston, élève 7 groupe 3 à 13

• On peut donc « expliquer » la note de Gaston : 13 = 12 - 3 + 4

Note de Gaston

Moyenne générale

(contrôle facile) Effet du groupe 3 (prof pas terrible)

Particularité de Gaston

(18)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 18

Formalisation Formalisation

• On peut donc « expliquer » la note d’Yvon comme

19 = 12 + 3 + 4

Note

Moyenne générale Variabilité entre les groupes

Variabilité personnelle, à l’intérieur du groupe

(19)

Que cherche-t-on ? Que cherche-t-on ?

• La variabilité personnelle dépend de nombreux facteurs

– On ne peut pas l’expliquer.

• C’est la variabilité entre groupes qui nous intéresse ici

– Si les groupes ont des moyennes significativement différentes, on pourra ensuite examiner des causes éventuelles : différences entre les profs, meilleur matériel, meilleur emploi du temps…

(20)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 20

Formellement

Formellement

(21)

H0 H0

• Hypothèse H0 : il n’y a pas de différence entre les groupes.

Ils ont même moyenne et même variance

• On ne s’intéresse pas au groupe mais aux populations qu’ils représentent : on travaille avec 

(22)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 22

Calcul de Vintra Calcul de Vintra

• Notations

k est le nombre de groupe (ici, k=3)

n est le nombre d’élève dans chaque groupe (n=9) N est le nombre total d’élève (N=27)

 i2 est la variance du groupe i (12=1,5) Xi est la moyenne du groupe i (X1=15) X est la moyenne générale (X=12)

Groupe 1 Groupe 2 Groupe 3

Elève 1 16 12 12

Elève 2 15 10 9

Elève 3 14 11 7

Elève 4 16 14 7

Elève 5 17 13 10

Elève 6 15 12 9

Elève 7 14 10 10

Elève 8 13 15 9

Elève 9 15 11 8

Moyenne 15,0 12,0 9,0

Variance 1,5 3,0 2,5

(23)

Calcul de Vintra Calcul de Vintra

• La variance d’un groupe représente son hétérogénéité ou sa variabilité biologique interne.

• Vintra est la variabilité biologique interne de tous les groupe (le « bruit » global).

Pour l’évaluer, on prend simplement la moyenne des variances des groupes :

Groupe 1 Groupe 2 Groupe 3

Elève 1 16 12 12

Elève 2 15 10 9

Elève 3 14 11 7

Elève 4 16 14 7

Elève 5 17 13 10

Elève 6 15 12 9

Elève 7 14 10 10

Elève 8 13 15 9

Elève 9 15 11 8

Moyenne 15,0 12,0 9,0

Variance 1,5 3,0 2,5

(24)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 24

Les clones sont parmi nous…

Les clones sont parmi nous…

• Si on travaillait sur des « clones » (aucune différence entre les individus d’un groupe), il n’y aurait aucune variance à l’intérieur des groupes :

Groupe 1 Groupe 2 Groupe 3

Clone 1 15 12 9

Clone 2 15 12 9

Clone 3 15 12 9

Clone 4 15 12 9

Clone 5 15 12 9

Clone 6 15 12 9

Clone 7 15 12 9

Clone 8 15 12 9

Clone 9 15 12 9

Moyenne 15,0 12,0 9,0

Variance 0,0 0,0 0,0

3 0 0 0 k 0

Vintra σ

i2

(25)

Calcul de Vinter Calcul de Vinter

• La moyenne d’un groupe est une mesure du niveau moyen du groupe.

• Vinter est la variabilité entre les groupes. Pour l’évaluer, on prend simplement la variance des moyennes multipliés par l’effectif :

       

81 12

9 12

12 12

9 15 X

n X Vinter

2 2

2 2

i

Groupe 1 Groupe 2 Groupe 3

Elève 1 16 12 12

Elève 2 15 10 9

Elève 3 14 11 7

Elève 4 16 14 7

Elève 5 17 13 10

Elève 6 15 12 9

Elève 7 14 10 10

Elève 8 13 15 9

Elève 9 15 11 8

Moyenne 15,0 12,0 9,0

Variance 1,5 3,0 2,5

(26)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 26

Calcul pratique (réveil !!!) Calcul pratique (réveil !!!)

Groupe 1 Groupe 2 Groupe 3

Elève 1 16 12 12

Elève 2 15 10 9

Elève 3 14 11 7

Elève 4 16 14 7

Elève 5 17 13 10

Elève 6 15 12 9

Elève 7 14 10 10

Elève 8 13 15 9

Elève 9 15 11 8

Moyenne 15,0 12,0 9,0 Vinter = 9 x variance(B12:D12) = 81,0

Variance 1,5 3,0 2,5 Vintra = Moyenne(B13:D13) = 2,3

(27)

Des clones partout Des clones partout

G1 G2 G3

C1 12 12 12

C2 12 12 12

C3 12 12 12

C4 12 12 12

Moy 12 12 12 Vinter 0

Var 0 0 0 Vintra 0

G1 G2 G3

C1 14 12 10

C2 14 12 10

C3 14 12 10

C4 14 12 10

Moy 14 12 10 Vinter 16

Var 0 0 0 Vintra 0

G1 G2 G3

C1 17 14 18

C2 13 17 12

C3 11 5 6

C4 7 12 12

Moy 12 12 12 Vinter 0

Var 17,333 26 24 Vintra 22,4

G1 G2 G3

C1 19 14 16

C2 15 17 10

C3 13 5 4

C4 9 12 10

Moy 14 12 10 Vinter 16

Var 17,333 26 24 Vintra 22,4

Les profs et les élèves sont des clones : Pas de variabilité du tout

Les profs sont des clones :

Variabilité à l’intérieur des groupes, mais pas entre les groupes

Les élèves sont des clones : Situation réelle :

(28)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 28

Retour au problème Retour au problème

• Y a-t-il des différences entre les groupes ?

(29)

Retour au problème Retour au problème

• Y a-t-il des différences entre les groupes ? Vinter = 0

La réponse est trivialement non !

(30)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 30

Retour au problème Retour au problème

• Y a-t-il des différences entre les groupes ?

G1 G2 G3

C1 12 12 12

C2 12 12 12

C3 12 12 12

C4 12 12 12

Moy 12 12 12 Vinter 0

Var 0 0 0 Vintra 0

Les profs et les élèves sont des clones : Pas de variabilité du tout

Vinter = 0

La réponse est trivialement non car Vinter=0 indique l’égalité entre les moyennes des groupes

G1 G2 G3

C1 17 14 18

C2 13 17 12

C3 11 5 6

C4 7 12 12

Moy 12 12 12 Vinter 0

Var 17,333 26 24 Vintra 22,4

Les profs sont des clones :

Variabilité à l’intérieur des groupes, mais pas entre les groupes

(31)

Retour au problème Retour au problème

• Y a-t-il des différences entre les groupes ?

(32)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 32

Retour au problème Retour au problème

• Y a-t-il des différences entre les groupes ? Vinter = 16

Vintra = 0

La réponse est oui car on détecte une différence entre les moyennes sans que des variations internes (bruit) gênent cette détection…

(33)

Retour au problème Retour au problème

• Y a-t-il des différences entre les groupes ? Vinter = 16

Vintra = 0

La réponse est oui car on détecte une différence entre les moyennes sans que des variations internes (bruit) gênent cette détection…

G1 G2 G3

C1 14 12 10

C2 14 12 10

C3 14 12 10

C4 14 12 10

Moy 14 12 10 Vinter 16

Var 0 0 0 Vintra 0

Les élèves sont des clones :

(34)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 34

Retour au problème Retour au problème

• Y a-t-il des différences entre les groupes ?

(35)

Retour au problème Retour au problème

• Y a-t-il des différences entre les groupes ? Vinter = 16

Vintra = 22,4

La réponse est moins nette. Peut-être qu’une différence existe mais le bruit nous empêche de la détecter. On ne rejette pas H0

(36)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 36

Retour au problème Retour au problème

• Y a-t-il des différences entre les groupes ? Vinter = 16

Vintra = 22,4

G1 G2 G3

C1 19 14 16

C2 15 17 10

C3 13 5 4

C4 9 12 10

Moy 14 12 10 Vinter 16

Var 17,333 26 24 Vintra 22,4

Situation réelle :

Variabilité à l’intérieur des groupes et également entre les groupes

La réponse est moins nette. Peut-être qu’une différence existe mais le bruit nous empêche de la détecter. On ne rejette pas H0

Trop de bruit Détection impossible

(37)

Comment conclure ? Comment conclure ?

• Si Vinter=16 et Vintra=0 : on rejette H0

• Si Vinter=0 et Vintra=22,4 : on rejette H0

• Entre les deux, si Vinter=18 et Vintra=7 ?

On utilise le test pour comparer les variances : le F de Fisher

(38)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 38

F de Fisher

F de Fisher

(39)

F de Fisher : comme d’hab F de Fisher : comme d’hab

• On calcule le F observé

• On calcule la probabilité de F

• Autre méthode : lecture du F théorique sur une table

– Si FObs > FTh, la différence est significative, on rejette H0

– Si FObs < FTh, la différence n’est pas significative, on ne rejette pas H0

(40)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 40

Calcul du F observé Calcul du F observé

Vintra Vinter FObs

• Puis la probabilité d’obtenir un tel F si SEULEMENT la variabilité biologique est en jeu est :

Loi.F(Fobs,DDL dessous,DDL dessus)

(41)

Calcul des DDL Calcul des DDL

• V inter est une variance

– Son DDL est de le nombre de groupe moins 1 – DDL inter=k-1

• Vintra est la moyenne des variances

– Son DDL est la somme des DDL de chacun des groupes – Chaque groupe a un DDL de n-1

– DDL intra = n-1 + n-1 + … + n-1 = N-k

(42)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 42

Exemple Exemple

• DDL inter = k-1 = 3-1 = 2

• DDL intra = N-k = 27 – 3 = 24

Groupe 1 Groupe 2 Groupe 3

Elève 1 16 12 12

Elève 2 15 10 9

Elève 3 14 11 7

Elève 4 16 14 7

Elève 5 17 13 10

Elève 6 15 12 9

Elève 7 14 10 10

Elève 8 13 15 9

Elève 9 15 11 8

Moyenne 15,0 12,0 9,0 Vinter = 9 x variance(B12:D12) = 81,0 Variance 1,5 3,0 2,5 Vintra = Moyenne(B13:D13) = 2,3

2,381 35,2 Vintra

Vinter

FObs

(43)

Lecture du F théorique Lecture du F théorique

• Cette fois-ci, on lit le F sur la table 5% (parce ce que on doit tester Vinter/Vintra, mais pas Vintra/Vinter

FTh=3,40

FObs étant plus grand que FTh, on peut rejeter H0 :

Risque 5%

1 2 3 4 5 6

1 161,40 199,50 215,70 224,60 234,20

2 18,51 19,00 19,16 19,25 19,30

3 10,13 9,55 9,28 9,12 9,01

24 4,26 3,40 3,01 2,78 2,62

DDL de la variance du DESSUS

DDL de la variance du

DESSOUS

(44)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 44

Risque 5%

Risque 5%

• On veut savoir si Vinter/Vintra est grand

– On teste donc au risque 5%

• Pour la comparaison des variances, on voulait savoir si V1/V2 était grand OU si V2/V1 était grand.

– On devait donc tester V1/V2 au risque 2,5% et V2/V1 au risque 2,5%

– Grâce a une astuce, on avait qu’un seul des deux tests à faire, mais ca ne changeait rien au seuil

(45)

Groupes de taille variable

Groupes de taille variable

(46)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 46

Vintra : Groupes de taille variable Vintra : Groupes de taille variable

• Rappel : pour les groupes de même taille :

– Vintra = moyenne des variances =

• Pour des groupes de taille variable :

– Vintra = moyenne des variances PONDEREE par les DDL :

• Si les k groupes ont la même taille n, les formules coïncident

k σi2

 

DDLi σ Vintra DDLi

i2

k σ k

n σ n

n σ n DDLi

σ

DDLi i2 i2

i2

i2

 

 

(47)

Vinter : Groupes de taille variable Vinter : Groupes de taille variable

• Rappel : pour les groupes de même taille :

– Vinter = n x variances des moyennes =

• Pour des groupes de taille variable :

– Vinter = variances des moyennes PONDEREE par les tailles :

• Si les groupes ont la même taille n, les formules coïncident

   

1 k

X X n 1

k

X n X

2 i

2 i

 

1 k

X X Vinter n

2 i i

2

2

2

 

(48)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 48

Exemple : mini QCM Exemple : mini QCM

Gr 1 Gr 2 Gr 3

20 20 20

15 20 20

15 20 20

15 16,7 20 11,2 16,7 16,7

10 15 15

6,7 15 15

5 10

5 0

4,5 5

Total Moyenne Xi 10,2 17,6 15,2 13,8 Variance si 29,2 5,4 44,1

Nombre ni 11 7 9 27

DDLi 10 6 8 24

ni x (Xi-X)² 140,8 102,6 17,5 Vinter = somme[ni x (Xi-X)²] / (k-1) (140,8+102,6+17,5)/2= 130,5 DDLi x si 292,2 32,5 352,5 Vintra = somme(DDLi x si) / somme(DDLi) (292,2+32,5+352,5)/(10+6+8)= 28,2 Fobs=Vinter/Vintra=4,624

Fth= 3,40

(49)

Conclusion Conclusion

• L’hypothèse « toutes les moyennes sont les mêmes » est rejetée.

 toutes les moyennes ne sont pas les mêmes

 MAIS on ne sait pas ou sont les différences

(50)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 50

Conclusion Conclusion

• Les moyennes sont 10,2 ; 15,2 et 17,6

• On sait qu’il existe au moins une différence significative.

– Entre 10,2 et 15,2 ? – Entre 10,6 et 17,6 ? – Entre 15,2 et 17,6 ?

(51)

Pour le savoir : T de Student…

Pour le savoir : T de Student…

• Rappel : pour comparer deux moyennes :

• Ici, au lieu de calculer la variance commune, on va utiliser Vintra

MS Com APA

MS APA

N1 N1

σ

X T X

2 N

N (N 1) (s (s

1) σ (N

MS APA

MS MS

GAPA Com APA

G2 G1

G2 G1

N1 N1

Vintra

X T X

(52)

http://christophe.genolini.free.fr Licence Stat-info CM5a : 52

Pour le savoir : T de Student…

Pour le savoir : T de Student…

1,947 71

111 28,2

15,2

T 10,2

• DDL des 2 groupes = (11-1) + (7-1) = 16

• T th = 2,120

La différence entre 10,2 et 15,2 N’est PAS significative

Références

Documents relatifs

On dit souvent que les joueurs de tennis ont un bras plus court que l’autre.. 1 Note les deux mots qui se prononcent de la

un joli sac.Nous allons

2) Dans le cadre d'une étude sur la situation des étudiants au sein de l'université de Liège, des chercheurs ont voulu savoir si la fréquence des sorties et la somme d'argent

4) On désire déterminer si la quantité moyenne de nitrate varie d'une station à une autre le long d'une rivière. Pour cela, on prélève en 10 points une certaine quantité d'eau

A regression of diastolic on just test would involve just qualitative predictors, a topic called Analysis of Variance or ANOVA although this would just be a simple two

Dans les cellules eucaryotes, deux centrioles (proximal et distal) sont situés à proximité du noyau Chaque centriole est un ensemble de 9 triplets de microtubules, reliés entre eux

Stockez le résultat de cetteopération dans une variable que vous appellerez donneeAddition.. Quel est le type de donneeAddition (variable numerique, vecteur,

Exemple : On veut ´etudier l’effet de deux facteurs qualitatifs, le niveau de la fertilisation et rotation de la culture, sur le poids des grains