On a d´efini la m´ethode des moindres carr´es pour trouver les coefficients d’une droite qui passe `a travers le nuage de points dans le plan d´efini par des mesures (xi, yi) de deux variables X etY. Une question importante se pose cependant: comment mesurer la force d’une relation lin´eaire entre les deux variables X etY?
D´efinition 11.1 Le coefficient de corr´elation de l’´echantillon (x1, y1). . .(xn, yn) est d´efini par
r=
Pn
i=1(xi−x)(yi−y) pP
i(xi −x)2pP
i(yi−y)2. Remarquons que:
• r est ind´ependant des unit´es dans lesquellesx et y sont mesur´es.
• −1 6r61.
• r = 1 ssi toutes les paires (xi, yi) sont sur une droite de pente positive et r =−1 ssi toutes les paires (xi, yi) sont sur une droite de pente n´egative.
En r`egle usuelle, on dit que la corr´elation est faible si 0 6 |r| 6 1/2 et que la correlation est forte si |r|>0,8.
www.al3abkari-pro.com
143Exemples:
€
rprès de +1
€
rprès de -1
€
rprès de 0, pas de relation apparente
€
rprès de 0, pas de relation linéaire
On peut penser aux paires (xi, yi) comme ´etant les valeurs prises par des paires de variables al´eatoires (Xi, Yi) ayant toutes la mˆeme distribution de probabilit´e jointe, d´efinie par une fonction de probabilit´e jointep(X,Y)(x, y) = P[“X = x et Y = y”] dans le cas discret ou par une densit´e de probabilit´e jointe f(X,Y)(x, y) dans le cas continu.
On a d´efini le coefficient de corr´elation ρ(X, Y) de deux variables al´eatoires X et Y par
ρ(X, Y) = cov(X, Y) σXσY o`u
cov(X, Y) = X
x
X
y
(x−µx)(y−µy)p(X,Y)(x, y) pour (X, Y) discr`etes
= Z ∞
−∞
Z ∞
−∞
(x−µx)(y−µy)f(x, y)dx dy
pour (X, Y) conjointement continues. (11.1)
www.al3abkari-pro.com
144Le coefficient de corr´elation ρ := ρ(X, Y) est un param`etre de la ρ0 6= 0, on utilise, pour une distribution jointe des variables X et Y comme ci-dessus, la statistique
qui a approximativement une distribution normale de moyenneµV = 12ln 1+ρ
1−ρ
et de variance n−31 .
www.al3abkari-pro.com
145Chapitre 12
ANOVA ` a un facteur
En ´etudiant les m´ethodes d’analyse de donn´ees, nous nous sommes d’abord int´eress´es `a des probl`emes concernant un seul ´echantillon, puis nous avons abord´e l’analyse comparative de deux ´echantillons. Pour un seul ´echantillon, les donn´ees ´etaient des observations obtenues en choisissant au hasard des
“individus” dans une population. Quand on comparait deux ´echantillons, ils
´
etaient soit pris dans deux populations distinctes, soit ils concernaient deux
“traitements” distincts appliqu´es `a des individus issus d’une mˆeme popula-tion.
L’analyse de la variance (plus bri`evement ANOVA) r´ef`ere `a de nombreuses situations exp´erimentales, d´efinissant des proc´edures statistiques pour anal-yser des donn´ees provenant d’exp´eriences. Le probl`eme le plus simple, appel´e ANOVA `a un facteur, concerne l’analyse de donn´ees
- soit issues de plus de deux populations,
- soit venant d’exp´eriences sur une population o`u plus de deux traite-ments ont ´et´e utilis´es.
La caract´eristique qui diff´erencie les populations ou les traitements est ap-pel´ee le facteur et les diff´erents traitements (ou populations) sont appel´es les niveauxdu facteur.
Par exemple, on peut faire une exp´erience ´etudiant l’effet du nombre de plantes par pot sur le poids moyen d’une plante. Le facteur est ici le nombre de plantes par pot. Il y a autant de niveaux de ce facteur que de nom-bres diff´erents de plantes par pot dans les exp´eriences faites (par exemple 3 niveaux: 4 plantes par pot, 12 plantes par pot et 28 plantes par pot). La grandeur ´etudi´ee est le poids d’une plante.
L’ANOVA `a un facteur va ´etudier la comparaison des moyennes de la grandeur
www.al3abkari-pro.com
146´
etudi´ee dans ces diff´erentes populations (ou lors de ces diff´erents traitements).
Notons I pour le nombre de niveaux du facteur (donc le nombre de pop-ulations ou de traitements qu’on veut comparer) et notons
µ1 pour la moyenne de la grandeur ´etudi´ee dans le premier niveau (donc dans la premi`ere population ou lorsque le premier traitement est appliqu´e), µ2 pour la moyenne de la grandeur ´etudi´ee dans le deuxi`eme niveau, ...
µI pour la moyenne de la grandeur ´etudi´ee dans le dernier (Ieme) niveau.
Le test d’hypoth`ese qui nous int´eresse ici est:
H0 : µ1 =µ2 =. . . µI
contre
H1 : au moins deux de ces moyennes sont diff´erentes.
Nous prenons un ´echantillon pour chacun des niveaux du facteur et notons : -Xij la variable al´eatoire qui d´enote la jeme mesure de la grandeur observ´ee dans le ieme niveau;
-xij la valeur observ´ee de Xij quand on fait l’exp´erience.
Hypoth`ese de travail: on suppose que chacun des Xij (qui sont bien sˆur tous suppos´es ind´ependants et identiquement distribu´es pour chaque valeur de i fix´ee) a une distribution normale de moyenne µi et de variance σ2. On suppose donc que la variance est la mˆeme dans tous les niveaux!
Supposons avoir un ´echantillon de taille Jk pour le keme niveau; on a donc des observations
xk1, xk2, . . . xkJk
qui sont les valeurs de variables al´eatoires ind´ependantes Xk1, Xk2, . . . XkJk ∼ N(µk, σ2).
On d´esigne par n le nombre total d’observations, donc n =J1+J2 +. . .+JI. Th´eor`eme 12.1 D´efinissons:
www.al3abkari-pro.com
147• La somme totale des carr´es
• La somme des carr´es des traitements SSTr :=
• La somme des carr´es des erreurs SSE :=
donc Xi· est la moyenne-´echantillon de l’´echantillin dans le niveau i;
• M STr := I−11 SSTr M SE := n−I1 SSE.
Alors, sous l’hypoth`ese H0 que les moyennes sont ´egales, F := M STM SEr a la distribution d’une variable al´eatoire F de param`etres I −1, n−I:
F = M STr
M SE ∼ FI−1,n−I.
Remarque 12.1 Les variables al´eatoiresFn1,n2 sont d´efinies pour des entiers positifs n1 et n2; leurs valeurs sont donn´ees dans des tables, en particulier les nombres r´eels que nous noterons Fn1,n2;α tels que
P[ “Fn1,n2 >Fn1,n2;α” ] = α.
Si on a deux variables chi-carr´e, leur quotient d´efinit une variable F; de mani`ere plus pr´ecise, si Y1 ∼ Xn1 et Y2 ∼ Xn2 alors YY1/n1
2/n2 ∼ Fn1,n2.
www.al3abkari-pro.com
148La r`egle de d´ecisionpour notre test au niveauαest la suivante: on rejette l’homog´en´eit´e (donc on rejette l’hypoth`ese H0 selon laquelle les moyennes dans les diff´erents niveaux sont ´egales : µ1 =µ2 =. . . µI) si la valeurf de la statistique F est sup´erieure `a FI−1,n−I;α.
Si on rejette l’homog´en´eit´e, il existe de nombreuses m´ethodes statistiques permettant des comparaisons multiples entre les diff´erents niveaux. Ceci sort du cadre de ce cours d’introduction aux m´ethodes statistiques.
De mˆeme, les ANOVA `a deux facteurs ou plus ´etudient des situations ou plusieurs facteurs sont ´etudi´es, chacun avec un certain nombre de niveaux.
Remarquons encore que notre ´etude de l’ANOVA `a un facteur peut se d´ecrire sous la forme
Xij =µiεij
o`u les εij sont des variables ind´ependantes et identiquement distribu´ees suiv-ant une normale N(0, σ2).