• Aucun résultat trouvé

7.1.1. Echantillons appariés

Lorsque les deux échantillons sont appariés (mesures répétées), on calcule pour chaque paire x1x2 la différence d, puis md la moyenne des différences. Si l'hypothèse nulle est vraie, cette moyenne devrait être égale à 0. Le problème se ramène donc à la comparaison d'une moyenne obtenue et d'une moyenne attendue.

7.1.2. Echantillons indépendants

Le problème est de comparer les moyennes de deux échantillons indépendants (ils peuvent avoir des effectifs différents). L'hypothèse est que les deux moyennes sont égales, donc que la différence entre m1 et m2 est voisine de zéro. Il serait possible de calculer les intervalles de confiance de chaque moyenne, et de voir si les deux intervalles ont une intersection non nulle.

Ces statistiques t doivent être comprises comme le rapport entre la variance véritable (ou la différence véritable entre les moyennes) et la variance d'erreur (c'est-à-dire la variation autour de la moyenne). S'il n'existe pas de différence réelle entre les groupes, alors la variance véritable et la variance d'erreur sont équivalentes. Le rapport sera alors égal à 1. Lorsque t est significatif, on en conclut que la variance véritable est supérieure à la variance d'erreur.

7.2. Analyses de variance

Le test de Student ne peut comparer que deux groupes. Lorsque l'on a plus de deux groupes expérimentaux, il est nécessaire d'utiliser l'analyse de variance, ou ANOVA. L'analyse de variance va comme le test de Student porter sur un rapport entre la variance véritable (c'est-à-dire liée à un facteur expérimental) et la variance liée à l'erreur expérimentale. Mais la comparaison ne portera pas sur deux échantillons, mais sur l'ensemble des échantillons affectés par le facteur.

Le cas le plus simple est l'analyse de variance à un facteur: il s'agit en fait de comparer plusieurs échantillons indépendants. L'usage de tests de Student répétés est inapproprié.

Deux conditions doivent être réunies:

- les distributions doivent être normales.

- les variances doivent être homogènes.

L'hypothèse nulle est que les moyennes m1, m2,..,mn, ne diffèrent pas dans leur ensemble.

La variance totale dépend de deux sources de variation:

- La variance intra-groupe (c'est-à-dire la variance de la variable, à l'intérieur de chaque groupe, autour des moyennes de groupe).

- La variance inter-groupe, qui mesure la dispersion des moyennes Test post-hoc

L'analyse de variance ne permet que de déceler des différences d'ensemble dans les moyennes, mais pas de localiser avec précision les différences. Si le facteur comporte plusieurs niveaux, il est nécessaire de procéder à des tests post-hoc (Newman-Keuls, Scheffé,...), pour localiser avec précision les différences.

Les tests post-hoc ne peuvent être réalisés que si l'analyse de variance est significative.

La méthode de Scheffé repose sur le test de contrastes. On appelle contraste une somme pondérée de moyennes:

Lorsque l'on croise plusieurs facteurs, l'analyse de variance donne des renseignements d'une part sur les effets simples, mais également sur les effets d'interaction entre les facteurs.

Remarque pour les non paramétriques :

Lorsque les tests de normalité ne sont pas significatifs, l'usage de l'analyse de variance n'est pas permise. On dispose alors d'une batterie de tests alternatifs, analogues à ceux qui viennent d'être décrits. D'une manière générale, ces tests sont réalisés après une transformation des données brutes en données de score (échelle ordinale). On peut établir les correspondances suivantes :

Comparaison d'échantillons indépendants. On utilise le test du U de Mann-Whitney.

Ce test travaille sur les rangs. On mélange les données des deux échantillons, on les ordonne et on leur attribue des rangs. Soit TA la somme des rangs de l'échantillon A et TB la somme des rangs de l'échantillon B. On peut calculer la moyenne générale des rangs, la moyenne des rangs pour A et la moyenne des rangs pour B. On peut de même calculer les variances des échantillons de rangs. L'hypothèse nulle est que la distribution des rangs est la même dans les deux groupes (même moyenne et même écart-type).

Le test de Mann-Whitney ne fonctionne que pour la comparaison de deux groupes. Si l'on veut comparer plus de deux groupes, on utilise le test de Kruskal-Wallis. Ce test débute par une démarche similaire (agrégation et classement des données, calcul des données de rang).

On calcule pour chaque groupe Ti (somme des rangs), mi (moyenne des rangs) et ni (effectif).

On calcule ensuite la statistique H Comparaison d'échantillons appareillés.

Pour deux échantillons appareillés, on utilise le test de Wilcoxon.

- On calcule les différences entre test1 et test 2, pour chaque sujet.

- On classe les sujets dans l'ordre croissant des différences non nulles (les différences nulles ne sont pas prises en compte).

- On calcule le rang de chaque sujet dans ce classement

- On calcule la somme des rangs des différences positives (T+) et la somme des rangs de différences négatives (T-).

Lorsque la comparaison porte sur plus de deux échantillons appareillés, on dispose du test de Friedman.

7.3. Corrélation

Le coefficient de corrélation est une mesure de la relation entre deux variables x et y.

Afin d'étudier cette relation, on peut transformer les scores x et y en scores z:

zx=(x-mx)/sx et zy=(y-my)/sy

On calcule alors pour chaque point le produit croisé zxzy. Ce produit croisé a des caractéristiques importantes:

Si les scores bruts sont simultanément élevés, le produit croisé sera important et positif. Ce sera également le cas si les scores bruts sont simultanément faibles. Si les scores bruts sont élevés d'un côté, et faibles de l'autre, le produit croisé sera élevé, mais négatif.

Le coefficient de corrélation de Bravais-Pearson est la somme algébrique des produits croisés, pondéré par la taille de l'échantillon moins 1. Ce coefficient rend compte de la tendance des couples (x,y) à entretenir une relation forte et prévisible.

Il est fondamental de noter qu'une corrélation significative ne signifie aucunement qu'il existe une relation de cause à effet entre les deux variables. La corrélation peut en effet être liée à une troisième variable, qui agit de manière indépendante sur les deux première

Par exemple, il existe une corrélation élevée entre le taux de délinquance et le nombre d'églises (influence de la taille de la cité). Il existe une corrélation positive entre la réussite à des tests d'intelligence et la taille du pied (influence de l'âge).

La corrélation est à ce niveau essentiellement descriptive.

7.4. Analyses factorielles

Le but de l'analyse factorielle est de résumer un tableau de données en faisant émerger une structure plus simple de facteurs sous-jacents. Considérons que six sujets réalisent cinq tests codés de A à E. Ces tests sont les suivants:

A= Course 1000 m B= Course 3000 m

C= Test de détente verticale D= Test de course navette

E= Test de saut en longueur sans élan

Le tableau suivant indique les scores obtenus par chaque sujet sur chacun des tests.

a b c d e

1 200 19 44 9 25

2 150 18 130 25 80

3 80 7 62 20 40

4 115 11 115 23 75

5 100 10 110 17 75

6 80 9 80 17 35

On calcule les corrélations entre les échantillons de performances obtenues. La matrice des corrélations obtenues est la suivante:

A B C D E

A 1.000

B 0.951 1.000

C -0.190 0.027 1.000

D -0.422 -0.228 0.794 1.000

E -0.132 0.025 0.957 0.751 1.000

On peut remarquer, au travers de cette matrice, que certains tests présentent entre eux une forte relation (A et B; C et E), alors que d'autres sont indépendants l'un de l'autre (Bet C; B et E).

L'analyse factorielle, à partir de cette matrice de corrélation, va identifier des facteurs sous-jacents susceptibles d'expliquer les relations mises en évidence. La logique est que si deux tests sont en corrélation, on suppose qu'ils sont tous deux déterminés par une cause commune.

Dans le cas présent, l'analyse fait apparaître deux facteurs:

1 2

A -0.176 0.977

B 0.028 0.989

C 0.980 0.000

D 0.870 -0.290

E 0.966 0.032

Les facteurs ainsi isolés n'ont pas de signification immédiate: c'est le chercheur qui doit les interpréter en fonction de la nature des tests dont ils rendent compte. D'une manière générale, l'interprétation est fondée sur les tests qui ont la plus forte corrélation avec le facteur que l'on cherche à identifier.

L'interprétation d'une telle solution factorielle est relativement facile: le premier facteur rend compte des deux tests de course longue: on peut supposer qu'il rend compte d'une aptitude générale à l'endurance aérobie. Le second doit dans la même logique rendre compte d'une aptitude de force explosive des membres supérieurs.

On peut qu'il existe plusieurs méthodes pour optimiser le modèle, basées sur des rotations du système de facteurs.

7.5. Analyses de séries temporelles 7.5.1. Analyses descriptives Niveau

Le niveau moyen d’une série temporelle (moyenne de plusieurs observations consécutives) n’a de sens que si elle est établie sur une période suffisamment longue et qu’en cas de stationnarité. La première condition exige le calcul de plusieurs mesures consécutives à intervalle de temps régulier. Dans le cadre d’auto-évaluations bi-quotidiennes en situation écologique, notre expérience nous amène à penser que la semaine correspond à l’unité minimale (14) pour obtenir une valeur fiable du niveau d’estime de soi. La seconde condition est plus problématique. En effet, la stationnarité sous-entend qu’aucune pente n’est présente sur la période étudiée. Or, une baisse ou une augmentation progressive peut toujours survenir dans une série temporelle à cause d’un changement clinique du sujet ou de plusieurs erreurs de mesure consécutives. Dans le premier cas, le calcul du niveau moyen n’a pas de sens. Dans le second, un lissage de la courbe doit être envisagé. Traditionnellement, un lissage par moyenne mobile dont l’unité de base correspond au nombre hebdomadaire d’observations est satisfaisant.

(In)stabilité ou variabilité

L’écart type, autrement dit la racine carré de la moyenne de la somme des carrés des écarts à la moyenne, est un indice de variabilité/(in)stabilité d’une série temporelle utilisé par des auteurs travaillant sur l’estime de soi ou le soi physique (Amorose, 2001 ; Kernis et al., 1991 ; Greenier et al., 1999). Son application à une série temporelle est extrêmement limitée. En effet, l’écart type est issu d’une statistique gaussienne reposant sur l’hypothèse d’une distribution normale et aléatoire autour de la moyenne. De ce fait, les données sont supposées non-corrélées dans le temps. Or, la plupart des séries temporelles psychologiques présentent de longues auto-corrélations significatives (Gilden, 2001 ; Slifkin et Newell, 1998).

L’étendue constitue un indice d’amplitude maximale d’une série temporelle. Elle correspond à la différence entre la valeur la plus élevée et la valeur la plus faible de la série. Cet écart maximal permet notamment d’estimer les « bornes » inférieures et supérieures de la dimension évaluée chez un sujet au cours de la période étudiée.

Si l’on veut comparer deux séries temporelles, il arrive parfois que les moyennes et les écarts types soient identiques (Slifkin et Newell, 1998). Ces résultats suggèrent un fonctionnement similaire alors que les graphiques peuvent indiquer des évolutions radicalement différentes.

En appliquant une différenciation à la série temporelle (yt – yt-1), on obtient une nouvelle série temporelle des écarts entre deux observations consécutives. La moyenne obtenue des valeurs absolues de la nouvelle série traduit la valeur moyenne du changement entre deux mesures consécutives. Cet indice correspond à ce que nous avons appelé la moyenne des différences absolues.

7.5.2. Auto-correlations

Les analyses des séries temporelles individuelles obtenues visent à dégager des principes de fonctionnement individuels mais aussi collectifs (Slifkin et Newell, 1998). Elles mettent en évidence la part aléatoire et déterministe d’une série temporelle.

Deux grandes catégories de séries temporelles peuvent être retrouvées, stationnaires et non-stationnaires. Une série est stationnaire si la moyenne, l’écart type et les moments d’ordre supérieur, ainsi que les fonctions de corrélation demeurent invariants malgré les translations temporelles. Un exemple classique de processus stationnaire est l’état d’équilibre (steady state). Les biologistes parlent d’homéostasie. La variable oscille de manière aléatoire autour d’une valeur de base qui reste constante au cours du temps.

Les séries non-stationnaires présentent au contraire des changements plus ou moins marqués au cours du temps.

L’analyse de base est l’auto-corrélation. Le calcul du coefficient d’auto-corrélation rend compte du degré d’historicité entre une série temporelle et cette même série décalée n fois. Ce coefficient de corrélation de Bravais-Pearson analyse les couples successifs de valeurs (xt et xt+n) pour le décalage d’ordre n. Une série stationnaire ne présentera pas de pics significatifs (ou présence accidentelle). Si une série temporelle est non-stationnaire alors les auto-corrélations doivent être significatives dès le premier décalage (lag 1) jusqu’à des décalages élevés (lag n).

Le calcul du coefficient de cross-corrélation (ou corrélations croisées) traduit le degré d’association entre deux séries temporelles X et Y. Il s’agit encore d’une corrélation de Bravais-Pearson prenant en considération les couples successifs de valeurs synchrones (xt et yt) dans les deux séries. Le coefficient de cross-corrélation est ensuite calculé en introduisant un décalage temporel entre les deux séries. Le calcul tient compte des couples de valeurs séparées par un décalage constant (xt et yt+n). Ce calcul peut être réalisé pour un ensemble de décalages, positifs et négatifs, débouchant sur une fonction de cross-corrélation, mettant en relation le décalage et le coefficient de cross-corrélation correspondant.

Ces fonctions de cross-corrélation permettent en particulier de déterminer le décalage correspondant à l’association maximale entre les deux variables, suggérant que l’influence

d’une série sur l’autre s’exerce selon un certain délai temporel. Le signe de ce décalage indique le sens de cette influence. Si les évolutions de la série X précèdent des évolutions similaires de la série Y, il faut en conclure à une influence de la première variable sur la seconde, ou inversement.

7.5.3. ARIMA

Des analyses de séries chronologiques plus sophistiquées permettent de distinguer ce qui relève d’un comportement régulier (ensemble de composantes identifiables ou partie déterministe) de ce qui incombe au bruit (partie stochastique ou aléatoire dont la distribution est gaussienne). Autrement dit, leurs algorithmes distinguent ce qui relève du mécanisme étudié (dont l’état présent dépend souvent des états antérieurs) de ce qui incombe à l’erreur de mesure.

Documents relatifs