Test de Student et Analyse de la Variance
A. Latouche
Plan
Il s’agit d’une g´en´eralisation du t-test de Student
I Mettre en œuvre des analyses de la variance (ANOVA).
I Analyse de la variance `a un facteur.
I ANOVA `a deux facteurs crois´es sans et avec interaction.
ANoVA
I L’analyse de la Variance est une m´ethode d’analyse issue des mod`eles lin´eaires
I Plus pr´ecis´ement, elle permet de traiter le cas de variables `a expliquer quantitative et des variables explicatives
qualitatives
I On cherche `a savoir quel(s) facteur(s) d´etermine/influence le ph´enom`ene `a expliquer.
D´ efinitions
I Variable `a expliquer : correspond `a la r´ealisation du ph´enom`ene al´eatoire dont on cherche `a comprendre le fonctionnement.
I Soit X cette variable.
I Exemple : Si l’on s’int´eresse `a la vitesse de la croissance d’un chˆene, la variable `a expliquer peut ˆetre d´efinie comme la taille (en cm) d’une jeune pousse de ce type d’arbre un mois apr`es la germination.
I Cette variable est quantitative.
Variables explicatives
I Les variables explicatives repr´esentent les facteurs dont on veut d´eterminer s’ils ont une influence sur le ph´enom`ene
´ etudi´e.
I Effet que peut avoir l’implantation g´eographique sur la croissance des chˆenes, la variable explicative pourra ˆetre la r´egion dans laquelle l’arbre est plant´e.
I Les variables explicatives sont qualitatives
L’objectif de l’ANOVA est de d´eterminer si la variable
Notations
Afin de r´esoudre ce probl`eme on doit disposer
I de plusieurs observations de la variable `a expliquer
I selon les diff´erentes modalit´es de la (des) variable(-s) explicative(-s).
SoitXij laj-`eme r´ealisation de la variable al´eatoire X pour la i`eme modalit´e de la variable explicative.
ANOVA ` a un facteur
Exemple : croissance des chˆenes
Question : la r´egion dans laquelle est plant´ee un chˆene influence t elle sa croissance ?
I La variable `a expliquer,X, marqueur du ph´enom`ene `a ´etudier (la croissance des chˆenes) est la taille des pousses, un mois apr`es germination.
I La variable explicative est la r´egion. Cette variable est `a trois modalit´es repr´esentant les r´egions A, B et C.
I Pour chaque r´egion, on dispose de 5 observations.
D’apr`es les d´efinitions pr´ec´edentes, on a
Croissance des chˆ enes
On dispose donc des donn´ees suivantes pour effectuer cette analyse :
R´egion
A B C
3 10 13
5 8 11
6 5 7
3 7 11
3 5 8
Variabilit´ e Intra
I En observant ces donn´ees parcolonne, on remarque que dans une r´egion donn´ee les observations sont variables.
I On parle de variabilit´e intra-niveau.
I Cette variabilit´e peut ˆetre attribu´ee `a la nature al´eatoire des observations.
Variabilit´ e Inter
I En comparant les observations, r´egion par r´egion, on observe
´
egalement des fluctuations
I On parle de variabilit´e inter-niveau
I On peut ´egalement attribuer cette variabilit´e au caract`ere al´eatoire des donn´ees.
I On peut ´egalement s’interroger sur le rˆole de l’effet de la r´egion sur la croissance dans cette variabilit´e.
I En effet, si la r´egion n’a aucun effet sur la croissance des chˆenes, on devrait s’attendre `a n’observer aucune variabilit´e inter-niveau.
I Plus exactement, la variabilit´e inter-niveau devrait ˆetre du mˆeme ordre que la variabilit´e intra-niveau.
Etapes de l’ANOVA
⇒La probl´ematique de l’ANOVA revient `a comparer la variabilit´e des observationsintra-niveau et inter-niveau.
1. Quantification des variabilit´es.
2. Test de comparaison des variances.
Quantification des variances
I Une premi`ere variabilit´e inter-niveau αi
I quantifie la dispersion desXij pour i fix´e par rapport `a la valeur moyenne des observations ¯X.
I
αi = ¯Xi−X¯
I o`u ¯Xi =P5 j=1
Xij
ni
I o`u ni repr´esente le nombre d’observations pour la modalit´e i et ¯Xi la moyenne pour la colonne i
I X¯ =P3 i=1
P5 j=1
Xij
Nobs
avecNobs =P3
i=1ni , le nombre total d’observations.
Variabilit´ e Intra
I Une variabilit´e intra-niveau ij
I quantifie la dispersion des Xij au sein des observations pour i fix´e par rapport `a ¯Xi
ij =Xij −X¯i
D´ ecomposition : principe
Ainsi on consid`ere que l’observation est issue
I d’un effet moyen relatif au ph´enom`ene observ´e,
I d’une variabilit´e li´ee `a la modalit´e i du facteur ´etudi´e (variabilit´e inter-niveau)
I d’un effet al´eatoire non li´ee au facteur ´etudi´e (variabilit´e intra-niveau ).
D´ ecomposition : suite
On consid`ere le mod`ele suivant
Xij = ¯X +αi +ij Ou
Xij −X¯ =αi +ij Finalements
3
X
i=1 ni
X
j=1
(Xij −X¯)2 =
3
X
i=1 ni
X
j=1
α2i +
3
X
i=1 ni
X
j=1
2ij
Somme des Carr´ es des Ecarts
La somme pr´ec´edente s’´ecrite
SCEtotal = SCEinter + SCEintra o`u
I SCEtotal
I SCEinter
I SCEintra
Croissance des chˆ enes
R´egion
A B C
3 10 13
5 8 11
6 5 7
3 7 11
3 5 8
Calculer ¯Xi et ¯X
Illustration
R´egion
A B C
3 10 13
5 8 11
6 5 7
3 7 11
3 5 8
X¯i 4 7 10 X¯ = 7
Calcul des SCE
Pour calculer SCEinter = SCEA on doit calculer les moyennes des observations pour chaque colonnes ¯Xi et la moyenne g´en´erale ¯X
I SCEinter = SCEA = 5×((4−7)2+ (7−7)2+ (10−7)2) = 90
I SCEintraou SCE r´esiduelle est plus complexe `a calculer au tableau et se d´eduit de la SCEtotal
I Ici 140=90+50 En pratique votre logiciel
Ddl et table de l’ANOVA
I N nombre d’observation
I C nombre de modalit´e du facteur (r´egion)
Source de variation SCE ddl
Inter-niveau (facteur) SCEinter=90 C-1=3-1=2 Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12
Total SCEtotal=140 N-1=3*5-1=14
Test de comparaison de variance
L’analyse de la variance revient donc `a comparer les diff´erentes lignes de la table d’ANOVA.
I La question pos´ee est :
La variabilit´e inter-niveau est-elle du mˆeme ordre que la variabilit´e intra-niveau ?
I On consid`ere le rapport
SCEinter/(C −1)
SCEintra/(N−C) = CMinter CMintra
Test de comparaison de variance
I Si ce rapport est significativement plus grand que 1
I la variabilit´e inter-classe est plus grande que la variabilit´e intra-classe
I les observations `a partir desquelles la variabilit´e inter-classe est calcul´ee, varient trop pour pouvoir consid´erer que la variabilit´e inter-classe et la variabilit´e intra-classe soient consid´er´ees comme comparables.
I Dans ce cas,
I On peut conclure que le facteur r´egion a un effet significatif sur la croissance des chˆenes.
Test de comparaison de variance
SousH0, la statistique de test suit une loi de F(c −1,n−c) ddl (cf. table de l’ANOVA).
Fobs = 45/4.17 = 10.8
I Valeur seuil pour α=0.01 (0.05)
I Loi de Fisher(2,12)= 6.93 (3.89)
I Fobs >>6.93( 3.89)
I on rejette l’hypoth`ese nulle
I L’effet de la r´egion sur la croissance des chˆenes semble assez fort
R´ esum´ e
1. D´efinition des variables al´eatoires ´etudi´ees :
D´efinir la variable `a expliquer et la variable explicative.
2. D´efinition du mod`ele associ´e `a l’ANOVA:
On d´efinit les diff´erentes variabilit´es `a consid´erer dans notre ´etude ainsi que ce `a quoi elle correspondent.
3. Calcul des diff´erentes variabilit´es :
Ces calculs reviennent `a construire le tableau associ´e `a l’ANOVA.
R´ esum´ e: Test
I D´efinition de H0
I D´efinition de la statistique de test F et de sa loi
I Calcul de Fobs
I D´etermination de la valeur seuil
ANOVA ` a deux facteurs : Principe
I on cherche `a ´evaluer l’influence de deux variables explicatives sur la variable `a expliquer.
I Deux cas sont `a distinguer : les mod`eles sans et avec interaction.
I Si les variables explicatives (ou facteurs) sont ind´ependantes : ANOVA sans interaction
I Techniquement, les ANOVA `a deux facteurs correspondent `a une g´en´eralisation de l’´etude pr´ec´edente.
I Reprenons ainsi le plan d’´etude pr´esent´e dan la premi`ere partie.
Mod` ele sans interaction
En reprenant les donn´ees portant sur la croissance des chˆenes.
I On pr´ecise ici que pour chaque r´egion, la mesure des pousses de chˆenes a ´et´e effectu´ee dans des zones de densit´e de population humaine comparables.
I Cette variable est cod´ee selon cinq modalit´es (de 1 `a 5 par ordre croissant de densit´e).
I D´efinition des variables al´eatoires ´etudi´ees :
La variable `a expliquer est toujours la taille des jeunes pousses et on consid`ere cette fois deux variables explicatives :
I la r´egion (trois modalit´es)
I la densit´e de population (cinq modalit´es).
On cherche `a savoir si la r´egion et la densit´e de population ont un
Donn´ ees
Ici, le tableau croise les deux facteurs et pour chaque couple de modalit´e, on dispose d’une observation : Xij la taille de la pousse observ´ee dans la r´egioni pour une zone de densit´e de populationj.
R´egion Densit´e A B C
1 3 10 13
2 5 8 11
3 6 5 7
4 3 7 11
5 3 5 8
D´efinition du mod`ele associ´e `a l’ANOVA
I Pour prendre en compte l’effet du second facteur, il suffit d’ajouter au mod`ele un terme βj repr´esentant l’effet de la jeme modalit´e du facteur densit´e de population :
Xij = ¯X +αi+βj +ij I
SCEtotal = SCEA+ SCEB + SCEintra
Avec SCEA qui quantifie la variabilit´e selon les diff´erentes modalit´e de la variable A (idem SCEB).
SCEA=
3
X
j=1
nj( ¯X•j −X¯)2
Calcul des variabilit´ es
R´egion X¯i•
Densit´e A B C
1 3 10 13 8.67
2 5 8 11 8
3 6 5 7 6
4 3 7 11 7
5 3 5 8 5.33
X¯•j 4 7 10 X¯ = 7
Table d’ANOVA
Source de variation SCE ddl CM
Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45 Inter-niveau (facteur) SCEB=22.67 L-1=5-1=4 5.67 Intra-niveau (residuelle) SCEintra=27.33 N-(C+L-1)=15-7=8 3.42
Total SCEtotal=140 N-1=3*5-1=14
Tests: facteur r´ egion
I Pour le test de l’effet de la r´egion
H0 : Il n’existe pas d’effet de la r´egion sur la croissance des chˆenes.
La statistique de test est d´efinie par : CMA CMRes
Et suit sous H0 une loi de Fisher `a (3−1),(3−1)×(5−1) = 2,8 ddl.
I On en d´eduit queFobsA = 3.4245 = 13.21
I Or, pourα = 5%,F2,8seuil = 4.46
I On rejette donc H0 ce qui permet de conclure `a la pr´esence d’un effet de la r´egion sur la croissance des chˆenes.
Tests : facteur densit´ e
I Pour le test de l’effet de la densit´e de population H0 : Il n’existe pas d’effet de la densit´e de population sur la croissance des chˆenes
La statistique de test est d´efinie par : CMB
CMRes Et suit sous H0 une loi de Fisher `a (5−1),(3−1)×(5−1) = 4,8 ddl.
I On en d´eduit queFobsB = 1.66
I Or, pourα = 5%,F4,8seuil = 3.84
I On ne rejette donc pasH0.
R´ esum´ e ANOVA 2 facteurs
I Cette ´etude a permis de prendre en compte deux facteurs
I On a montrer que la r´egion avait une influence sur la croissance des chˆenes mais pas la densit´e de population
I Ainsi la r´egion influence la croissance des chˆenes par des param`etres diff´erents des param`etres d´emographiques (des caract´eristiques climatiques par exemple).
Cette ´etude n’est possible que si l’on consid`ere que les deux facteurs ´etudi´es sont ind´ependants. Dans le cas contraire il faut prendre en compte leur interaction.
Mod` ele avec interaction
I L’introduction d’une interaction dans le mod`ele de l’ANOVA, revient `a consid´erer que l’intensit´e de l’effet d’un facteur ne sera pas le mˆeme selon la modalit´e consid´er´ee pour le second facteur.
I On prend en compte cette interaction en introduisant l’effet αiβj dans le mod`ele de l’ANOVA. D’o`u
Xij = ¯X +αi+βj +αi×βj +ij
I
SCEtotal = SCEA+ SCEB + SCEAB + SCEintra
I o`u SCEAB quantifie la variabilit´e des observations li´ee `a
Etude de l’effet de l’interaction
I H0: absence d’effet de l’interaction
I La statistique de test est d´efinie par : CMAB CMRes
I Loi de Fisher((C −1)×(L−1), dllRes)
ANOVA avec interaction : Exemple
I Cette ´etude s’int´eresse `a l’impact des pluies acides sur la flore d’une r´egion donn´ee.
I Objectif : ´etudier l’influence de deux acides nitrique et sulfurique (HNO3 et H2SO4) sur la production de chlorophylle d’un type de plante donn´e.
I La variable `a expliquer est la production de chlorophylle
I les variables explicatives sont la pollution par HNO3 d’une part et par H2SO4 d’autre part.
I On peut supposer l’existence d’interactions biochimiques dans ce syst`eme par exemple si des catalyses ont lieu
I Ainsi il convient de poser le mod`ele avec interaction suivant : SCEtotal = SCEA+ SCEB + SCEAB + SCEintra
Donn´ ees
Pour chaque couple de modalit´es , on dispose de 5 observation
Table d’ANOVA
Test : effet des facteurs
I Acide sulfurique: On a Fobs >F(1,16), on rejetteH0, il existe un effet sur la production de chlorophylle
I Acide Nitrique :On a Fobs >F(1,16), on rejette H0, il existe un effet sur la production de chlorophylle
I Interaction: Rejet deH0, l’effet d’un de ces 2 acides n’est pas le mˆeme selon que l’autre est pr´esent dans le milieu
Cette analyse montre que les 2 acides ont un effet significatifs ur la