• Aucun résultat trouvé

Corr´ elation

Dans le document Probabilit´es et Statistiques MATH-F-315 (Page 144-150)

On a d´efini la m´ethode des moindres carr´es pour trouver les coefficients d’une droite qui passe `a travers le nuage de points dans le plan d´efini par des mesures (xi, yi) de deux variables X etY. Une question importante se pose cependant: comment mesurer la force d’une relation lin´eaire entre les deux variables X etY?

D´efinition 11.1 Le coefficient de corr´elation de l’´echantillon (x1, y1). . .(xn, yn) est d´efini par

r=

Pn

i=1(xi−x)(yi−y) pP

i(xi −x)2pP

i(yi−y)2. Remarquons que:

• r est ind´ependant des unit´es dans lesquellesx et y sont mesur´es.

• −1 6r61.

• r = 1 ssi toutes les paires (xi, yi) sont sur une droite de pente positive et r =−1 ssi toutes les paires (xi, yi) sont sur une droite de pente n´egative.

En r`egle usuelle, on dit que la corr´elation est faible si 0 6 |r| 6 1/2 et que la correlation est forte si |r|>0,8.

www.al3abkari-pro.com

143

Exemples:

rprès de +1

rprès de -1

rprès de 0, pas de relation apparente

rprès de 0, pas de relation linéaire

On peut penser aux paires (xi, yi) comme ´etant les valeurs prises par des paires de variables al´eatoires (Xi, Yi) ayant toutes la mˆeme distribution de probabilit´e jointe, d´efinie par une fonction de probabilit´e jointep(X,Y)(x, y) = P[“X = x et Y = y”] dans le cas discret ou par une densit´e de probabilit´e jointe f(X,Y)(x, y) dans le cas continu.

On a d´efini le coefficient de corr´elation ρ(X, Y) de deux variables al´eatoires X et Y par

ρ(X, Y) = cov(X, Y) σXσY o`u

cov(X, Y) = X

x

X

y

(x−µx)(y−µy)p(X,Y)(x, y) pour (X, Y) discr`etes

= Z

−∞

Z

−∞

(x−µx)(y−µy)f(x, y)dx dy

pour (X, Y) conjointement continues. (11.1)

www.al3abkari-pro.com

144

Le coefficient de corr´elation ρ := ρ(X, Y) est un param`etre de la ρ0 6= 0, on utilise, pour une distribution jointe des variables X et Y comme ci-dessus, la statistique

qui a approximativement une distribution normale de moyenneµV = 12ln 1+ρ

1−ρ

et de variance n−31 .

www.al3abkari-pro.com

145

Chapitre 12

ANOVA ` a un facteur

En ´etudiant les m´ethodes d’analyse de donn´ees, nous nous sommes d’abord int´eress´es `a des probl`emes concernant un seul ´echantillon, puis nous avons abord´e l’analyse comparative de deux ´echantillons. Pour un seul ´echantillon, les donn´ees ´etaient des observations obtenues en choisissant au hasard des

“individus” dans une population. Quand on comparait deux ´echantillons, ils

´

etaient soit pris dans deux populations distinctes, soit ils concernaient deux

“traitements” distincts appliqu´es `a des individus issus d’une mˆeme popula-tion.

L’analyse de la variance (plus bri`evement ANOVA) r´ef`ere `a de nombreuses situations exp´erimentales, d´efinissant des proc´edures statistiques pour anal-yser des donn´ees provenant d’exp´eriences. Le probl`eme le plus simple, appel´e ANOVA `a un facteur, concerne l’analyse de donn´ees

- soit issues de plus de deux populations,

- soit venant d’exp´eriences sur une population o`u plus de deux traite-ments ont ´et´e utilis´es.

La caract´eristique qui diff´erencie les populations ou les traitements est ap-pel´ee le facteur et les diff´erents traitements (ou populations) sont appel´es les niveauxdu facteur.

Par exemple, on peut faire une exp´erience ´etudiant l’effet du nombre de plantes par pot sur le poids moyen d’une plante. Le facteur est ici le nombre de plantes par pot. Il y a autant de niveaux de ce facteur que de nom-bres diff´erents de plantes par pot dans les exp´eriences faites (par exemple 3 niveaux: 4 plantes par pot, 12 plantes par pot et 28 plantes par pot). La grandeur ´etudi´ee est le poids d’une plante.

L’ANOVA `a un facteur va ´etudier la comparaison des moyennes de la grandeur

www.al3abkari-pro.com

146

´

etudi´ee dans ces diff´erentes populations (ou lors de ces diff´erents traitements).

Notons I pour le nombre de niveaux du facteur (donc le nombre de pop-ulations ou de traitements qu’on veut comparer) et notons

µ1 pour la moyenne de la grandeur ´etudi´ee dans le premier niveau (donc dans la premi`ere population ou lorsque le premier traitement est appliqu´e), µ2 pour la moyenne de la grandeur ´etudi´ee dans le deuxi`eme niveau, ...

µI pour la moyenne de la grandeur ´etudi´ee dans le dernier (Ieme) niveau.

Le test d’hypoth`ese qui nous int´eresse ici est:

H0 : µ12 =. . . µI

contre

H1 : au moins deux de ces moyennes sont diff´erentes.

Nous prenons un ´echantillon pour chacun des niveaux du facteur et notons : -Xij la variable al´eatoire qui d´enote la jeme mesure de la grandeur observ´ee dans le ieme niveau;

-xij la valeur observ´ee de Xij quand on fait l’exp´erience.

Hypoth`ese de travail: on suppose que chacun des Xij (qui sont bien sˆur tous suppos´es ind´ependants et identiquement distribu´es pour chaque valeur de i fix´ee) a une distribution normale de moyenne µi et de variance σ2. On suppose donc que la variance est la mˆeme dans tous les niveaux!

Supposons avoir un ´echantillon de taille Jk pour le keme niveau; on a donc des observations

xk1, xk2, . . . xkJk

qui sont les valeurs de variables al´eatoires ind´ependantes Xk1, Xk2, . . . XkJk ∼ N(µk, σ2).

On d´esigne par n le nombre total d’observations, donc n =J1+J2 +. . .+JI. Th´eor`eme 12.1 D´efinissons:

www.al3abkari-pro.com

147

• La somme totale des carr´es

• La somme des carr´es des traitements SSTr :=

• La somme des carr´es des erreurs SSE :=

donc X est la moyenne-´echantillon de l’´echantillin dans le niveau i;

• M STr := I−11 SSTr M SE := n−I1 SSE.

Alors, sous l’hypoth`ese H0 que les moyennes sont ´egales, F := M STM SEr a la distribution d’une variable al´eatoire F de param`etres I −1, n−I:

F = M STr

M SE ∼ FI−1,n−I.

Remarque 12.1 Les variables al´eatoiresFn1,n2 sont d´efinies pour des entiers positifs n1 et n2; leurs valeurs sont donn´ees dans des tables, en particulier les nombres r´eels que nous noterons Fn1,n2;α tels que

P[ “Fn1,n2 >Fn1,n2;α” ] = α.

Si on a deux variables chi-carr´e, leur quotient d´efinit une variable F; de mani`ere plus pr´ecise, si Y1 ∼ Xn1 et Y2 ∼ Xn2 alors YY1/n1

2/n2 ∼ Fn1,n2.

www.al3abkari-pro.com

148

La r`egle de d´ecisionpour notre test au niveauαest la suivante: on rejette l’homog´en´eit´e (donc on rejette l’hypoth`ese H0 selon laquelle les moyennes dans les diff´erents niveaux sont ´egales : µ12 =. . . µI) si la valeurf de la statistique F est sup´erieure `a FI−1,n−I.

Si on rejette l’homog´en´eit´e, il existe de nombreuses m´ethodes statistiques permettant des comparaisons multiples entre les diff´erents niveaux. Ceci sort du cadre de ce cours d’introduction aux m´ethodes statistiques.

De mˆeme, les ANOVA `a deux facteurs ou plus ´etudient des situations ou plusieurs facteurs sont ´etudi´es, chacun avec un certain nombre de niveaux.

Remarquons encore que notre ´etude de l’ANOVA `a un facteur peut se d´ecrire sous la forme

Xijiεij

o`u les εij sont des variables ind´ependantes et identiquement distribu´ees suiv-ant une normale N(0, σ2).

www.al3abkari-pro.com

149

Dans le document Probabilit´es et Statistiques MATH-F-315 (Page 144-150)

Documents relatifs