• Aucun résultat trouvé

Test de Student et Analyse de la Variance

N/A
N/A
Protected

Academic year: 2022

Partager "Test de Student et Analyse de la Variance"

Copied!
41
0
0

Texte intégral

(1)

Test de Student et Analyse de la Variance

A. Latouche

(2)

Plan

Il s’agit d’une g´en´eralisation du t-test de Student

I Mettre en œuvre des analyses de la variance (ANOVA).

I Analyse de la variance `a un facteur.

I ANOVA `a deux facteurs crois´es sans et avec interaction.

(3)

ANoVA

I L’analyse de la Variance est une m´ethode d’analyse issue des mod`eles lin´eaires

I Plus pr´ecis´ement, elle permet de traiter le cas de variables `a expliquer quantitative et des variables explicatives

qualitatives

I On cherche `a savoir quel(s) facteur(s) d´etermine/influence le ph´enom`ene `a expliquer.

(4)

D´ efinitions

I Variable `a expliquer : correspond `a la r´ealisation du ph´enom`ene al´eatoire dont on cherche `a comprendre le fonctionnement.

I Soit X cette variable.

I Exemple : Si l’on s’int´eresse `a la vitesse de la croissance d’un chˆene, la variable `a expliquer peut ˆetre d´efinie comme la taille (en cm) d’une jeune pousse de ce type d’arbre un mois apr`es la germination.

I Cette variable est quantitative.

(5)

Variables explicatives

I Les variables explicatives repr´esentent les facteurs dont on veut d´eterminer s’ils ont une influence sur le ph´enom`ene

´ etudi´e.

I Effet que peut avoir l’implantation g´eographique sur la croissance des chˆenes, la variable explicative pourra ˆetre la r´egion dans laquelle l’arbre est plant´e.

I Les variables explicatives sont qualitatives

L’objectif de l’ANOVA est de d´eterminer si la variable

(6)

Notations

Afin de r´esoudre ce probl`eme on doit disposer

I de plusieurs observations de la variable `a expliquer

I selon les diff´erentes modalit´es de la (des) variable(-s) explicative(-s).

SoitXij laj-`eme r´ealisation de la variable al´eatoire X pour la i`eme modalit´e de la variable explicative.

(7)

ANOVA ` a un facteur

Exemple : croissance des chˆenes

Question : la r´egion dans laquelle est plant´ee un chˆene influence t elle sa croissance ?

I La variable `a expliquer,X, marqueur du ph´enom`ene `a ´etudier (la croissance des chˆenes) est la taille des pousses, un mois apr`es germination.

I La variable explicative est la r´egion. Cette variable est `a trois modalit´es repr´esentant les r´egions A, B et C.

I Pour chaque r´egion, on dispose de 5 observations.

D’apr`es les d´efinitions pr´ec´edentes, on a

(8)

Croissance des chˆ enes

On dispose donc des donn´ees suivantes pour effectuer cette analyse :

R´egion

A B C

3 10 13

5 8 11

6 5 7

3 7 11

3 5 8

(9)

Variabilit´ e Intra

I En observant ces donn´ees parcolonne, on remarque que dans une r´egion donn´ee les observations sont variables.

I On parle de variabilit´e intra-niveau.

I Cette variabilit´e peut ˆetre attribu´ee `a la nature al´eatoire des observations.

(10)

Variabilit´ e Inter

I En comparant les observations, r´egion par r´egion, on observe

´

egalement des fluctuations

I On parle de variabilit´e inter-niveau

I On peut ´egalement attribuer cette variabilit´e au caract`ere al´eatoire des donn´ees.

I On peut ´egalement s’interroger sur le rˆole de l’effet de la r´egion sur la croissance dans cette variabilit´e.

I En effet, si la r´egion n’a aucun effet sur la croissance des chˆenes, on devrait s’attendre `a n’observer aucune variabilit´e inter-niveau.

I Plus exactement, la variabilit´e inter-niveau devrait ˆetre du mˆeme ordre que la variabilit´e intra-niveau.

(11)

Etapes de l’ANOVA

⇒La probl´ematique de l’ANOVA revient `a comparer la variabilit´e des observationsintra-niveau et inter-niveau.

1. Quantification des variabilit´es.

2. Test de comparaison des variances.

(12)

Quantification des variances

I Une premi`ere variabilit´e inter-niveau αi

I quantifie la dispersion desXij pour i fix´e par rapport `a la valeur moyenne des observations ¯X.

I

αi = ¯Xi−X¯

I o`u ¯Xi =P5 j=1

Xij

ni

I o`u ni repr´esente le nombre d’observations pour la modalit´e i et ¯Xi la moyenne pour la colonne i

I X¯ =P3 i=1

P5 j=1

Xij

Nobs

avecNobs =P3

i=1ni , le nombre total d’observations.

(13)

Variabilit´ e Intra

I Une variabilit´e intra-niveau ij

I quantifie la dispersion des Xij au sein des observations pour i fix´e par rapport `a ¯Xi

ij =Xij −X¯i

(14)

D´ ecomposition : principe

Ainsi on consid`ere que l’observation est issue

I d’un effet moyen relatif au ph´enom`ene observ´e,

I d’une variabilit´e li´ee `a la modalit´e i du facteur ´etudi´e (variabilit´e inter-niveau)

I d’un effet al´eatoire non li´ee au facteur ´etudi´e (variabilit´e intra-niveau ).

(15)

D´ ecomposition : suite

On consid`ere le mod`ele suivant

Xij = ¯X +αi +ij Ou

Xij −X¯ =αi +ij Finalements

3

X

i=1 ni

X

j=1

(Xij −X¯)2 =

3

X

i=1 ni

X

j=1

α2i +

3

X

i=1 ni

X

j=1

2ij

(16)

Somme des Carr´ es des Ecarts

La somme pr´ec´edente s’´ecrite

SCEtotal = SCEinter + SCEintra o`u

I SCEtotal

I SCEinter

I SCEintra

(17)

Croissance des chˆ enes

R´egion

A B C

3 10 13

5 8 11

6 5 7

3 7 11

3 5 8

Calculer ¯Xi et ¯X

(18)

Illustration

R´egion

A B C

3 10 13

5 8 11

6 5 7

3 7 11

3 5 8

i 4 7 10 X¯ = 7

(19)

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes des observations pour chaque colonnes ¯Xi et la moyenne g´en´erale ¯X

I SCEinter = SCEA = 5×((4−7)2+ (7−7)2+ (10−7)2) = 90

I SCEintraou SCE r´esiduelle est plus complexe `a calculer au tableau et se d´eduit de la SCEtotal

I Ici 140=90+50 En pratique votre logiciel

(20)

Ddl et table de l’ANOVA

I N nombre d’observation

I C nombre de modalit´e du facteur (r´egion)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2 Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12

Total SCEtotal=140 N-1=3*5-1=14

(21)

Test de comparaison de variance

L’analyse de la variance revient donc `a comparer les diff´erentes lignes de la table d’ANOVA.

I La question pos´ee est :

La variabilit´e inter-niveau est-elle du mˆeme ordre que la variabilit´e intra-niveau ?

I On consid`ere le rapport

SCEinter/(C −1)

SCEintra/(N−C) = CMinter CMintra

(22)

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilit´e inter-classe est plus grande que la variabilit´e intra-classe

I les observations `a partir desquelles la variabilit´e inter-classe est calcul´ee, varient trop pour pouvoir consid´erer que la variabilit´e inter-classe et la variabilit´e intra-classe soient consid´er´ees comme comparables.

I Dans ce cas,

I On peut conclure que le facteur r´egion a un effet significatif sur la croissance des chˆenes.

(23)

Test de comparaison de variance

SousH0, la statistique de test suit une loi de F(c −1,n−c) ddl (cf. table de l’ANOVA).

Fobs = 45/4.17 = 10.8

I Valeur seuil pour α=0.01 (0.05)

I Loi de Fisher(2,12)= 6.93 (3.89)

I Fobs >>6.93( 3.89)

I on rejette l’hypoth`ese nulle

I L’effet de la r´egion sur la croissance des chˆenes semble assez fort

(24)

R´ esum´ e

1. D´efinition des variables al´eatoires ´etudi´ees :

D´efinir la variable `a expliquer et la variable explicative.

2. D´efinition du mod`ele associ´e `a l’ANOVA:

On d´efinit les diff´erentes variabilit´es `a consid´erer dans notre ´etude ainsi que ce `a quoi elle correspondent.

3. Calcul des diff´erentes variabilit´es :

Ces calculs reviennent `a construire le tableau associ´e `a l’ANOVA.

(25)

R´ esum´ e: Test

I D´efinition de H0

I D´efinition de la statistique de test F et de sa loi

I Calcul de Fobs

I D´etermination de la valeur seuil

(26)

ANOVA ` a deux facteurs : Principe

I on cherche `a ´evaluer l’influence de deux variables explicatives sur la variable `a expliquer.

I Deux cas sont `a distinguer : les mod`eles sans et avec interaction.

I Si les variables explicatives (ou facteurs) sont ind´ependantes : ANOVA sans interaction

I Techniquement, les ANOVA `a deux facteurs correspondent `a une g´en´eralisation de l’´etude pr´ec´edente.

I Reprenons ainsi le plan d’´etude pr´esent´e dan la premi`ere partie.

(27)

Mod` ele sans interaction

En reprenant les donn´ees portant sur la croissance des chˆenes.

I On pr´ecise ici que pour chaque r´egion, la mesure des pousses de chˆenes a ´et´e effectu´ee dans des zones de densit´e de population humaine comparables.

I Cette variable est cod´ee selon cinq modalit´es (de 1 `a 5 par ordre croissant de densit´e).

I D´efinition des variables al´eatoires ´etudi´ees :

La variable `a expliquer est toujours la taille des jeunes pousses et on consid`ere cette fois deux variables explicatives :

I la r´egion (trois modalit´es)

I la densit´e de population (cinq modalit´es).

On cherche `a savoir si la r´egion et la densit´e de population ont un

(28)

Donn´ ees

Ici, le tableau croise les deux facteurs et pour chaque couple de modalit´e, on dispose d’une observation : Xij la taille de la pousse observ´ee dans la r´egioni pour une zone de densit´e de populationj.

R´egion Densit´e A B C

1 3 10 13

2 5 8 11

3 6 5 7

4 3 7 11

5 3 5 8

(29)

D´efinition du mod`ele associ´e `a l’ANOVA

I Pour prendre en compte l’effet du second facteur, il suffit d’ajouter au mod`ele un terme βj repr´esentant l’effet de la jeme modalit´e du facteur densit´e de population :

Xij = ¯X +αij +ij I

SCEtotal = SCEA+ SCEB + SCEintra

Avec SCEA qui quantifie la variabilit´e selon les diff´erentes modalit´e de la variable A (idem SCEB).

SCEA=

3

X

j=1

nj( ¯X•j −X¯)2

(30)

Calcul des variabilit´ es

R´egion X¯i•

Densit´e A B C

1 3 10 13 8.67

2 5 8 11 8

3 6 5 7 6

4 3 7 11 7

5 3 5 8 5.33

•j 4 7 10 X¯ = 7

(31)

Table d’ANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45 Inter-niveau (facteur) SCEB=22.67 L-1=5-1=4 5.67 Intra-niveau (residuelle) SCEintra=27.33 N-(C+L-1)=15-7=8 3.42

Total SCEtotal=140 N-1=3*5-1=14

(32)

Tests: facteur r´ egion

I Pour le test de l’effet de la r´egion

H0 : Il n’existe pas d’effet de la r´egion sur la croissance des chˆenes.

La statistique de test est d´efinie par : CMA CMRes

Et suit sous H0 une loi de Fisher `a (3−1),(3−1)×(5−1) = 2,8 ddl.

I On en d´eduit queFobsA = 3.4245 = 13.21

I Or, pourα = 5%,F2,8seuil = 4.46

I On rejette donc H0 ce qui permet de conclure `a la pr´esence d’un effet de la r´egion sur la croissance des chˆenes.

(33)

Tests : facteur densit´ e

I Pour le test de l’effet de la densit´e de population H0 : Il n’existe pas d’effet de la densit´e de population sur la croissance des chˆenes

La statistique de test est d´efinie par : CMB

CMRes Et suit sous H0 une loi de Fisher `a (5−1),(3−1)×(5−1) = 4,8 ddl.

I On en d´eduit queFobsB = 1.66

I Or, pourα = 5%,F4,8seuil = 3.84

I On ne rejette donc pasH0.

(34)

R´ esum´ e ANOVA 2 facteurs

I Cette ´etude a permis de prendre en compte deux facteurs

I On a montrer que la r´egion avait une influence sur la croissance des chˆenes mais pas la densit´e de population

I Ainsi la r´egion influence la croissance des chˆenes par des param`etres diff´erents des param`etres d´emographiques (des caract´eristiques climatiques par exemple).

Cette ´etude n’est possible que si l’on consid`ere que les deux facteurs ´etudi´es sont ind´ependants. Dans le cas contraire il faut prendre en compte leur interaction.

(35)

Mod` ele avec interaction

I L’introduction d’une interaction dans le mod`ele de l’ANOVA, revient `a consid´erer que l’intensit´e de l’effet d’un facteur ne sera pas le mˆeme selon la modalit´e consid´er´ee pour le second facteur.

I On prend en compte cette interaction en introduisant l’effet αiβj dans le mod`ele de l’ANOVA. D’o`u

Xij = ¯X +αiji×βj +ij

I

SCEtotal = SCEA+ SCEB + SCEAB + SCEintra

I o`u SCEAB quantifie la variabilit´e des observations li´ee `a

(36)

Etude de l’effet de l’interaction

I H0: absence d’effet de l’interaction

I La statistique de test est d´efinie par : CMAB CMRes

I Loi de Fisher((C −1)×(L−1), dllRes)

(37)

ANOVA avec interaction : Exemple

I Cette ´etude s’int´eresse `a l’impact des pluies acides sur la flore d’une r´egion donn´ee.

I Objectif : ´etudier l’influence de deux acides nitrique et sulfurique (HNO3 et H2SO4) sur la production de chlorophylle d’un type de plante donn´e.

I La variable `a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 d’une part et par H2SO4 d’autre part.

(38)

I On peut supposer l’existence d’interactions biochimiques dans ce syst`eme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le mod`ele avec interaction suivant : SCEtotal = SCEA+ SCEB + SCEAB + SCEintra

(39)

Donn´ ees

Pour chaque couple de modalit´es , on dispose de 5 observation

(40)

Table d’ANOVA

(41)

Test : effet des facteurs

I Acide sulfurique: On a Fobs >F(1,16), on rejetteH0, il existe un effet sur la production de chlorophylle

I Acide Nitrique :On a Fobs >F(1,16), on rejette H0, il existe un effet sur la production de chlorophylle

I Interaction: Rejet deH0, l’effet d’un de ces 2 acides n’est pas le mˆeme selon que l’autre est pr´esent dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur la

Références

Documents relatifs

Sur ce syst`eme mod`ele, nous montrons que, du point de vue entr´ee/sortie et sous l’hypoth`ese standard des petites oscillations, il n’y a pas de diff´erence entre des

Peut-être qu’une différence existe mais le bruit nous empêche de la détecter. On ne rejette

Figure 2.7 – Interf´ erence et diffraction : chaque fente donne naissance ` a une ph´ enom` ene de diffraction et la lumi` ere provenant des deux sources interf` erent.. Figure 2.8

Il existe donc une relation hautement significative entre le niveau de revenu et la propoension moyenne ` a ´ epargner (le coefficient de corr´ elation entre les deux variables

Compte tenu de la taille de l’´ echantillon, et sous r´ eserve de plus ample information sur la constitution de l’´ echantillon, la diff´ erence observ´ ee permet de

Les notes de cours (comme tout autre document) et les calculatrices ne sont PAS autoris´ ees.. Toutes les r´ eponses doivent ˆ etre

En occultant ensuite cette information, ajuster un ou plusieurs mod` eles (soit de type AR/MA/ARMA/ARIMA/SARIMA, soit de type r´ egression avec tendance et/ou saisonnalit´ e

Eysenck (1974) voulait tester ce mod` ele et examiner s’il pouvait contribuer ` a expliquer certaines diff´ erences relev´ ees entre des sujets jeunes et ˆ ag´ es concernant