Corr´ elation - Probabilit´es et Statistiques MATH-F-315

On a défini la méthode des moindres carrés pour trouver les coefficients d’une droite qui passe à travers le nuage de points dans le plan défini par des mesures (x_i, y_i) de deux variables X etY. Une question importante se pose cependant: comment mesurer la force d’une relation linéaire entre les deux variables X etY?

Définition 11.1 Le coefficient de corrélation de l’échantillon (x₁, y₁). . .(x_n, y_n) est défini par

i=1(x_i−x)(y_i−y) pP

i(x_i −x)²pP

i(y_i−y)². Remarquons que:

• r est indépendant des unités dans lesquellesx et y sont mesurés.

• −1 6r61.

• r = 1 ssi toutes les paires (xi, yi) sont sur une droite de pente positive et r =−1 ssi toutes les paires (x_i, y_i) sont sur une droite de pente n´egative.

En r`egle usuelle, on dit que la corr´elation est faible si 0 6 |r| 6 1/2 et que la correlation est forte si |r|>0,8.

www.al3abkari-pro.com

143

Exemples:

€

rprès de +1

€

rprès de -1

€

rprès de 0, pas de relation apparente

€

rprès de 0, pas de relation linéaire

On peut penser aux paires (x_i, y_i) comme étant les valeurs prises par des paires de variables aléatoires (Xi, Yi) ayant toutes la même distribution de probabilité jointe, définie par une fonction de probabilité jointep^(X,Y⁾(x, y) = P[“X = x et Y = y”] dans le cas discret ou par une densité de probabilité jointe f^(X,Y⁾(x, y) dans le cas continu.

On a défini le coefficient de corrélation ρ(X, Y) de deux variables aléatoires X et Y par

ρ(X, Y) = cov(X, Y) σ_Xσ_Y o`u

cov(X, Y) = X

(x−µ_x)(y−µ_y)p^(X,Y⁾(x, y) pour (X, Y) discr`etes

= Z ∞

−∞

Z ∞

−∞

(x−µ_x)(y−µ_y)f(x, y)dx dy

pour (X, Y) conjointement continues. (11.1)

www.al3abkari-pro.com

144

Le coefficient de corr´elation ρ := ρ(X, Y) est un param`etre de la ρ₀ 6= 0, on utilise, pour une distribution jointe des variables X et Y comme ci-dessus, la statistique

qui a approximativement une distribution normale de moyenneµV = ¹₂ln 1+ρ

1−ρ

et de variance _n−3¹ .

www.al3abkari-pro.com

145

Chapitre 12

ANOVA ` a un facteur

En étudiant les méthodes d’analyse de données, nous nous sommes d’abord intéressés à des problèmes concernant un seul échantillon, puis nous avons abordé l’analyse comparative de deux échantillons. Pour un seul échantillon, les données étaient des observations obtenues en choisissant au hasard des

“individus” dans une population. Quand on comparait deux ´echantillons, ils

etaient soit pris dans deux populations distinctes, soit ils concernaient deux

“traitements” distincts appliqués à des individus issus d’une même popula-tion.

L’analyse de la variance (plus brièvement ANOVA) réfère à de nombreuses situations expérimentales, définissant des procédures statistiques pour anal-yser des données provenant d’expériences. Le problème le plus simple, appelé ANOVA à un facteur, concerne l’analyse de données

- soit issues de plus de deux populations,

- soit venant d’expériences sur une population où plus de deux traite-ments ont été utilisés.

La caractéristique qui différencie les populations ou les traitements est ap-pelée le facteur et les différents traitements (ou populations) sont appelés les niveauxdu facteur.

Par exemple, on peut faire une expérience étudiant l’effet du nombre de plantes par pot sur le poids moyen d’une plante. Le facteur est ici le nombre de plantes par pot. Il y a autant de niveaux de ce facteur que de nom-bres différents de plantes par pot dans les expériences faites (par exemple 3 niveaux: 4 plantes par pot, 12 plantes par pot et 28 plantes par pot). La grandeur étudiée est le poids d’une plante.

L’ANOVA `a un facteur va ´etudier la comparaison des moyennes de la grandeur

www.al3abkari-pro.com

146

etudiée dans ces différentes populations (ou lors de ces différents traitements).

Notons I pour le nombre de niveaux du facteur (donc le nombre de pop-ulations ou de traitements qu’on veut comparer) et notons

µ₁ pour la moyenne de la grandeur étudiée dans le premier niveau (donc dans la première population ou lorsque le premier traitement est appliqué), µ₂ pour la moyenne de la grandeur étudiée dans le deuxième niveau, ...

µI pour la moyenne de la grandeur étudiée dans le dernier (Iême) niveau.

Le test d’hypoth`ese qui nous int´eresse ici est:

H0 : µ1 =µ2 =. . . µI

contre

H₁ : au moins deux de ces moyennes sont diff´erentes.

Nous prenons un échantillon pour chacun des niveaux du facteur et notons : -X_ij la variable aléatoire qui dénote la jême mesure de la grandeur observée dans le iême niveau;

-x_ij la valeur observ´ee de X_ij quand on fait l’exp´erience.

Hypothèse de travail: on suppose que chacun des Xij (qui sont bien sûr tous supposés indépendants et identiquement distribués pour chaque valeur de i fixée) a une distribution normale de moyenne µ_i et de variance σ². On suppose donc que la variance est la même dans tous les niveaux!

Supposons avoir un ´echantillon de taille J_k pour le k^eme niveau; on a donc des observations

x_k1, x_k2, . . . x_kJ_k

qui sont les valeurs de variables al´eatoires ind´ependantes X_k1, X_k2, . . . X_kJ_k ∼ N(µ_k, σ²).

On désigne par n le nombre total d’observations, donc n =J₁+J₂ +. . .+J_I. Théorème 12.1 Définissons:

www.al3abkari-pro.com

147

• La somme totale des carr´es

• La somme des carr´es des traitements SST_r :=

• La somme des carr´es des erreurs SSE :=

donc Xi· est la moyenne-´echantillon de l’´echantillin dans le niveau i;

• M ST_r := _I−1¹ SST_r M SE := _n−I¹ SSE.

Alors, sous l’hypothèse H₀ que les moyennes sont égales, F := ^{M ST}_{M SE}^r a la distribution d’une variable aléatoire F de paramètres I −1, n−I:

F = M ST_r

M SE ∼ FI−1,n−I.

Remarque 12.1 Les variables aléatoiresF_n₁_,n₂ sont définies pour des entiers positifs n₁ et n₂; leurs valeurs sont données dans des tables, en particulier les nombres réels que nous noterons Fn1,n2;α tels que

P[ “F_n₁_,n₂ >F_n₁_,n₂_;_α” ] = α.

Si on a deux variables chi-carré, leur quotient définit une variable F; de manière plus précise, si Y₁ ∼ X_n₁ et Y₂ ∼ X_n₂ alors ^Y_Y¹^/n¹

2/n2 ∼ F_n₁_,n₂.

www.al3abkari-pro.com

148

La règle de décisionpour notre test au niveauαest la suivante: on rejette l’homogénéité (donc on rejette l’hypothèse H₀ selon laquelle les moyennes dans les différents niveaux sont égales : µ1 =µ2 =. . . µI) si la valeurf de la statistique F est supérieure à FI−1,n−I;α.

Si on rejette l’homogénéité, il existe de nombreuses méthodes statistiques permettant des comparaisons multiples entre les différents niveaux. Ceci sort du cadre de ce cours d’introduction aux méthodes statistiques.

De même, les ANOVA à deux facteurs ou plus étudient des situations ou plusieurs facteurs sont étudiés, chacun avec un certain nombre de niveaux.

Remarquons encore que notre étude de l’ANOVA à un facteur peut se décrire sous la forme

X_ij =µ_iε_ij

où les ε_ij sont des variables indépendantes et identiquement distribuées suiv-ant une normale N(0, σ²).

www.al3abkari-pro.com

149

Dans le document Probabilit´es et Statistiques MATH-F-315 (Page 144-150)