• Aucun résultat trouvé

2. Comparer deux moyennes : test du t de Student

N/A
N/A
Protected

Academic year: 2022

Partager "2. Comparer deux moyennes : test du t de Student"

Copied!
23
0
0

Texte intégral

(1)

2. Comparer deux moyennes : test du t de Student

Soumis par Éric Raufaste

Dernière mise à jour : 27-01-2013

Objectifs. Mettre l'étudiant en position de savoir quand et comment réaliser une comparaison de moyenne(s) à un ou deux groupes.

Prérequis. Cours de L1; Approche intuitive de l'inférence statistique; Hypothèse nulle ; Principe général de la comparaison de moyennes.

Résumé. On expose la technique générale des trois principaux cas de test t : comparaison d'un échantillon à une constante;

comparaisons de deux échantillons indépendants; comparaison de deux échantillons appariés.

Le cas du test t dans les analyses post-hoc est renvoyé à l'article sur l'ANOVA.Â

Â

Â

1. Comprendre le test de Student

 1.1. Dans quel cas appliquer un tel test ?

Objectif. Le test du t de Student s'applique lorsque l'objectif est soit de comparer deux moyennes entre elles, soit de comparer une moyenne contre une constante.

Type des informations disponibles : Les valeurs mesurées doivent

être numériques, faute de quoi l'idée même de moyenne n'a pas de sens.

Distribution des observations : Les données doivent être

normalement distribuées : l'histogramme doit être symétrique et ressembler peu ou prou à une courbe en cloche.

https://uohpsy2.univ-tlse2.fr/UOHPsy2 Propulsé par Joomla! Généré: 11 May, 2022, 18:36

(2)

Condition d'indépendance : Les données doivent être indépendantes (les données d'un sujet ne sont pas censées avoir influencé les mesures faites sur un autre sujet).

Â

1.2. Qu'est-ce que la statistique t ?

1.2.1 Rappel sur la loi normale centrée réduite

Vous trouverez dans le cours de L1 une présentation simple de la loi normale centrée réduite, accompagnée d'un générateur de simulations pour que vous puissiez faire des tests : Cliquez ici pour y accéder.

 1.2.2 Notions d'échantillons virtuels et réels.

Avertissement : Ces deux notions sont propres au présent cours et vous ne les trouverez sans doute nulle part ailleurs.

Nous les introduisons afin de permettre une vue générale du test t.

Nous appelons ici échantillon réel un ensemble de mesures directement réalisées sur une population. Par exemple une mesure d'intelligence prise sur un ensemble de participants à une étude.

Nous appelons échantillon virtuel l'échantillon des données composé à partir des éléments à comparer. Ces éléments peuvent être (1) un échantillon réel et une constante (cas de la comparaison d'une moyenne à une constante); (2) deux

échantillons réels de mesures indépendantes (c.-à .d. des mesures prises sur des individus différents et qui ne se sont pas influencés par ailleurs); (3) deux échantillons réels de mesures appariées (c.-à .d. des paires de mesures prises pour chaque individu, où la première mesure va dans l'échantillon réel 1 tandis que la seconde mesure va dans l'échantillon réel 2).

1.2.3 Formule générale de la statistique t.

Dans toutes les formes du test de Student, la statistique calculée se nomme "t". Soient mv la moyenne d'un échantillon virtuel de taille nv et ESv son erreur-standard (on rappelle que l'erreur standard d'un échantillon s'obtient en divisant l'écart-type par la racine carrée de l'effectif), on a

{moslatex}$$t=\frac{m_v}{ES_v}=m_v \times \frac{\sqrt{n}}{s_v}$${/moslatex}

Cette formule s'applique dans le cas des trois tests t considérés dans cet article, test t pour échantillon unique, pour échantillons appariés et pour échantillons indépendants. Comment est-ce possible ? Tout simplement parce que

l'échantillon auquel nous faisons référence ici est un échantillon virtuel que nous construirons différemment dans les trois cas. Nous verrons comment plus loin mais, pour l'instant, continuons l'analyse sur cet échantillon virtuel.

Pourquoi utiliser cette note t plutôt que simplement une valeur centrée-réduite z dont la distribution est connue puisque

(3)

c'est celle de la loi normale centrée-réduite ? Eh bien, pour la raison suivante, qui se comprend par un raisonnement en deux points.

- parce que si la moyenne mv et l'écart-type sv de l'échantillon peuvent être considérés comme des estimateurs des paramètres "réels" de la population d'où est tiré l'échantillon, à savoir sa moyenne μ et son écart-type σ, ces estimateurs ne sont pas l'exacte réalité mais seulement une approximation de la réalité.

- Si cette approximation de la moyenne μ par m peut être considérée comme fiable (au sens où si l'on tirait un nombre infini d'échantillons, la moyenne des moyennes issues de tous ces tirages convergerait vers la "vraie" moyenne, celle de la population), ce n'est pas le cas pour l'écart-type s. En effet, ce dernier est biaisé de façon systématique par rapport à l'écart-type σ de la population d'où est extrait l'échantillon, et la taille du biais dépend de la taille des échantillons que l'on prend : plus l'échantillon est petit et plus le biais est important. Il nous faut donc une loi qui corrige ce biais. Comme ce

biais dépend de la taille des échantillons, il faut que cette loi admette un paramètre qui représente cette taille alors que la loi normale centrée-réduite ne dépend pas du tout de l'effectif.

Â

Mais alors, si l'on ne peut pas utiliser la loi normale... 1.3. Comment obtenir la valeur p associée ?

1.3.1. La loi du t

La variable t suit elle-même une loi, dite loi du t de Student que l'on a présentée dans le cours de première année.

Simplement, on peut considérer que les valeurs de t constituent une loi normale aménagée pour corriger le biais induit par la petite taille de l'échantillon. Plus l'échantillon est grand et moins il y a de biais à corriger et donc plus la loi du t ressemble à la loi normale.

La loi normale dépend de la moyenne et de l'écart-type, mais dans la loi centrée-réduite, ces deux paramètres sont fixés à 0 et 1 de sorte

que la loi normale centrée-réduite est entièrement déterminée. La loi du t en est une sorte d'adaptation. Elle dépend d'un paramètre supplémentaire, le nombre de degrés de liberté, qui traduit l'ampleur de la correction qu'il faut apporter.

Si l'on connaît le nombre de degrés de liberté, on peut alors déduire les valeurs p associées exactement selon les mêmes principes que l'on a utilisés pour la loi normale centrée réduite.

Il existe des tables du t (voir ici un exemple de table du t), que l'on peut utiliser lorsque l'on n'a pas de logiciel, mais on trouve maintenant des logiciels gratuits, Ã commencer par le tableau de la suite OpenOffice, permettant de calculer les

valeurs de p associées à t avec précision. Vous trouverez ici des vidéos de démonstration du calcul du test de student. 1.3.2. Unilatéral ou bilatéral ?

Comme la distribution du z, la distribution du t est symétrique autour de 0. Par conséquent, si l'on possède une hypothèse théorique précisant le sens de la différence attendue des moyennes que l'on compare (par exemple on s'attend à ce que la taille moyenne des garçons soit supérieure à la taille moyenne des filles d'une même classe d'âge)

https://uohpsy2.univ-tlse2.fr/UOHPsy2 Propulsé par Joomla! Généré: 11 May, 2022, 18:36

(4)

ET que les résultats vont dans le sens attendu, alors on peut diviser la valeur p que donnait le test bilatéral par deux.

Ainsi, pour 50 degrés de liberté une valeur de t=1.69 est associée à une valeur p de 0.0972. C'est supérieur au seuil conventionnel de 5% et donc on dira que ce n'est pas significatif (on pourra cependant parler de "tendance" car la valeur p est comprise entre .05 et .10.

Si l'on peut travailler en unilatéral, on divise cette valeur par 2, ce qui donne p=.049, ce qui cette fois est significatif. Bien évidemment, lorsque vous rapportez vos résultats, il faut préciser que la valeur a été calculée en unilatéral.

1.4. Comment présenter les résultats d'un test t ?

Nous nous basons ici sur les normes internationales en vigueur en psychologie, les normes de l'APA (American Psychological Association), 6e édition.

1.4.1. Les statistiques descriptives

Le test du t est avant tout une comparaison de moyennes, comparaison qui repose sur une ou des mesures de

dispersion. Il faut donc impérativement rapporter les données de statistiques descriptives, y compris la dispersion. Les débutants ont souvent tendance à l'oublier, tout à la joie de pouvoir rapporter un résultat "significatif", mais les statistiques inférentielles ne sont que des informations de second ordre, des indicateurs sur la fiabilité des résultats obtenus. Les informations de premier ordre, celles qui disent ce que l'on a vraiment observé, ce sont les statistiques descriptives et non les statistiques inférentielles !

Ces statistiques descriptives peuvent être présentées dans le texte du compte-rendu ou bien, le plus souvent, dans une table.

Lorsque l'on compare des groupes de tailles différentes, il est courant de donner comme indice de dispersion non pas la variance ou l'écart-type, qui sont très sensibles à la taille de l'échantillon, mais l'erreur standard qui l'est moins. On l'a dit plus haut, l'erreur standard s'obtient en divisant l'écart-type par la racine carrée de la taille de l'échantillon. Par exemple si l'écart-type vaut 3.0 et qu'il y a 20 sujets, cela fait une erreur standard de 3/racine(20) = 0.67.

Â

1.4.2. Les statistiques inférentielles.

Comme la distribution du t dépend du nombre de degrés de liberté, il convient de préciser celui-ci lorsque vous rapportez vos résultats. Cela donne une structure de la forme suivante :

                                                              t(ddl)=n.nn, p=xxx.

(5)

-

ddl est le nombre de degrés de liberté. Dans un test t, c'est le nombre de sujets de l'échantillon virtuel diminué de 1.

Nous verrons dans chacun des trois cas de test t comment calculer ce nombre.

-

la valeur n.nn peut se rapporter avec un signe ou non mais en tout les cas il est inutile de rapporter plus de deux

décimales. Les logiciels donnent souvent des valeurs signées et avec plus de deux décimales mais en pratique le signe du t est sans importance, et donner plus de deux décimales est foncièrement inutile.

Enfin la façon de rapporter les valeurs de p est tout à fait conventionnelle et ne dépend pas du type de test utilisé1.Â

Â

 1. Selon les normes de publication en vigueur en psychologie scientifique, il est maintenant d'usage de rapporter, outre les valeurs de t et le p associé, une variable représentant ce qu'on appelle la taille d'effet. Le calcul de cette dernière dépasse le cadre de ce cours aussi la laisserons-nous de côté.Â

Â

{mospagebreak heading=1. Comprendre le test de Student &title=2. Comparer un échantillon contre une constante}Â

Â

2. Comparer un échantillon contre une constante

Préalables spécifiques de cette version du test de Student :

1. Il faut soit avoir un

échantillon de données recueillies à raison d'une seule valeur par sujet, soit deux échantillons d'un même type de mesures (par exemple, un temps de réponse dans les deux cas) recueillis à raison de deux données par sujet et sur

lesquelles on peut procéder à une différence, laquelle sera comparée à une constante, généralement 0 mais pas nécessairement.

https://uohpsy2.univ-tlse2.fr/UOHPsy2 Propulsé par Joomla! Généré: 11 May, 2022, 18:36

(6)

2. Les données de l'échantillon devraient idéalement être normalement distribuées. Cliquez ici pour accéder à l'article expliquant comment vérifier si cette condition est réalisée.

3. Il faut disposer d'une hypothèse sur une valeur de référence. Par exemple si l'on connaît la valeur moyenne de la

variable mesurée dans la population de référence, comparer l'échantillon à cette valeur de référence permet de tester s'il est raisonable de considérer que notre échantillon provient bien de la population de référence.

4. L'hypothèse nulle est ici la suivante : m=c. Ou encore, ce qui revient au même, m-c=0. Par exemple, si l'on veut

tester une hypothèse selon laquelle l'intelligence générale augmente de génération en génération depuis qu'on la mesure (ce qu'on appelle "l'Effet Flynn"). Supposons qu'on dispose d'un test utilisé il y a trente ans. On sait qu'à l'époque une performance donnée sur le test correspondait à l'époque à la valeur de QI=100. On fait passer le test à des jeunes actuels. On observe donc une nouvelle moyenne. On va alors comparer cette moyenne à la valeur de référence 100. Et si l'on trouve que le QI actuel est significativement supérieur à 100 tel que mesuré sur cet outil utilisé à l'époque, alors on pourra conclure que le QI a monté.Â

Â

2.1. Obtenir la valeur de t

2.1.1. Pour les pressés : "En très bref"Â

Soit notre échantillon réel de taille n, de moyenne m et d'écart-type s, et soit c la constante à laquelle on veut le comparer.Â

Selon les informations dont on dispose, on applique la formule avec l'erreur standard ES,

                              {moslatex}$$t=\frac{m}{ES}$${/moslatex}

ou, ce qui revient au même, celle avec l'effectif et l'écart-type d'échantillon,

                               {moslatex}$$t=m\times\frac{\sqrt{n}}{s}$${/moslatex}

On présente le résultat en écrivant t(ddl)=n.nn (pour la présentation de la valeur p, voir l'article général sur la norme APA de présentation).

(7)

Voir aussi le lien de pratique avec les logiciels de statistiques :

                 _ Interpréter des résultats de test t à échantillon unique 2.1.2. Pour ceux qui aiment comprendre : D'où cela vient-il ?

Dans le test du t de Student, la statistique calculée est précisément la valeur t. Dans le cas de la comparaison d'un échantillon contre une constante, voyons quelle formule employer. Commençons par rappeler la formule générale du t :

Soient mv la moyenne d'un échantillon virtuel de taille nv et ESv son erreur-standard,

on a

{moslatex}$$t=\frac{m_v}{ES_v}=\frac{m_v}{\frac{s_v}{\sqrt{n}}}=m_v \times \frac{\sqrt{n}}{s_v}$${/moslatex}

Ici notre échantillon virtuel a pour moyenne mv = (m-c) où m est la moyenne de l'échantillon réel et c la constante à comparer. Et on a aussi ESv = ES, où ES est l'erreur standard de l'échantillon réel.

Démonstration. Ce dernier point résulte des propriétés générales de la variance : si l'on construit une nouvelle variable entre faisant pour chaque sujet la différence entre la variable de départ et une constante, la variance de la variable

d'arrivée est la même que la variance de la variable de départ. Ce qui se comprend aisément puisque la variance étant la dispersion de la variable, la nouvelle variable est tout aussi dispersée que la première ! Les échantillons virtuels et réels ont aussi, dans ce cas, la même taille. Puisque la formule de l'erreur-standard ne dépend que de la variance et de l'effectif, les deux erreurs-standard sont donc égales. CQFD.

Application : De ce qui précède il suit queÂ

                               Â

{moslatex}$$t=\frac{m}{ES}=\frac{m}{\frac{s}{\sqrt{n}}}=m\times \frac{\sqrt{n}}{s}$${/moslatex}

Â

2.2. Comment obtenir la valeur p associée ?

Il nous faut connaître la valeur t bien sûr et le nombre de degrés de libertés.

Ici l'échantillon virtuel a la même taille que l'échantillon réel, soit n individus. Le nombre de degrés de libertés est directement ddl=n-1.Â

https://uohpsy2.univ-tlse2.fr/UOHPsy2 Propulsé par Joomla! Généré: 11 May, 2022, 18:36

(8)

Si elle n'est pas directement donnée par votre logiciel de statistique, la valeur p associée s'obtient

- soit en regardant dans une table du t de student en prenant comme entrée la valeur du t ainsi calculée et comme nombre de degrés de libertés la valeur n-1 où n est le nombre de mesures.

- Soit au moyen d'une formule de tableur sous Microsoft Office Excel ou OpenOffice Calc :

"=LOI.STUDENT.BILATERALE(t; ddl)"

Â

2.3. Unilatéral ou bilatéral ?

Par défaut, on travaillera en bilatéral et on se contentera de la valeur p précédemment obtenue.

Si toutefois on dispose d'une hypothèse orientée et que les statistiques descriptives vont dans le sens attendu (typiquement on s'attend à ce que m>c et c'est le cas au niveau descriptif, ou bien on s'attend à ce que m<c et c'est le cas au niveau descriptif), alors on peut travailler en unilatéral : Il suffit alors de prendre la valeur p précédemment obtenue et la diviser par 2 avant de décider si le test est significatif ou non.

Â

2.4. Un exemple

Supposons que l'on ait une hypothèse théorique selon laquelle les astronautes en général (qu'ils aient ou non marché

sur la lune) devraient avoir plus de 38 ans en moyenne.

Imaginons que la seule information dont nous disposions est l'âge des

astronautes qui ont marché sur la lune au moment de leur sortie sur notre satelite. Nous obtenons le

tableau suivant :

 Individu  Age

 1  38

 2  39

(9)

 3  39

 4  37

 5  47

 6  39

 7  39

 8  41

 9  41

 10  36

 11  38

 12  37

 À partir de ce tableau il est facile de calculer la moyenne et l'écart-type des âges, soit

                              {moslatex}$m=\frac{\sum_{i=1}^{12}x_i}{12}=39.25${/moslatex}

et

 Â

{moslatex}$s=\sqrt{\frac{\sum_{i=1}^n(x_i-m)^2)}{n-1}}=\sqrt{\frac{\sum_{i=1}^{12}(x_i-39.25)^2)}{11}}=2.86${/moslatex}

Attention au fait que dans ce cas, le tableau représente un

échantillon de la population cible totale (les astronautes en général) et l'on utilise la

formule de l'écart-type pour échantillon (on divise par n-1) et non de l'écart-type pour population (où l'on divise par n).

https://uohpsy2.univ-tlse2.fr/UOHPsy2 Propulsé par Joomla! Généré: 11 May, 2022, 18:36

(10)

Nous obtenons

{moslatex}$t=(m-38)\times\frac{\sqrt{n}}{s}=(39.25-38)\times\frac{\sqrt{12}}{2.86}=1.514${/moslatex}Â

Â

Ensuite sous excel par exemple, en appliquant la formule =LOI.STUDENT.BILATERALE(t; ddl)" avec le t que l'on vient de calculer et ddl=12-1=11 degrés de libertés, on trouve p=0.15820928.

Pour un test du t, la question suivante à se poser concerne le

caractère bilatéral ou non du test. Ici on a une hypothèse précisant que la moyenne attendue doit être supérieure à 38. C'est bien le cas

puisque la moyenne observée est 39.25. Nous sommes donc fondés à travailler en unilatéral et

nous divisons simplement la valeur p précédente par 2, ce qui donne 0.08508. Finalement on peut rapporter le résultat inférentiel, conformément aux normes :

               t(11)=1.51, p=.079 en unilatéral, ce qui n'est pas significatif mais indique néanmoins une tendance.

Â

{mospagebreak title=3. Deux échantillons indépendants}  Â

3. Comparer deux échantillons indépendants.

Puisque l'on a deux groupes de sujets, on a aussi deux moyennes m1 et m2. L'hypothèse nulle revient à poser que

m1=m2. Un test significatif indiquera que le hasard n'explique pas les différences de moyennes et donc qu'en réalité on a probablement m1≠m2.

Préalables spécifiques de cette version du test de Student :

1. Il faut soit avoir deux échantillons de données recueillies sur deux groupes de sujets différents.

(11)

2. Les données devraient idéalement être normalement distribuées.

Cliquez ici pour voir comment tester la normalité de la distribution.

3. Les variances des échantillons réels devraient idéalement être homogènes. Sous SPSS ou Statistica par exemple, le

"test de Levene" ne doit pas être significatif. Toutefois cette condition n'est pas rédhibitoire car les logiciels donnent alors

des valeurs de p corrigées, selon des méthodes que nous ne détaillerons pas ici. Il suffit de vérifier l'homogénéité. Sous SPSS par exemple, si le test de Levene est significatif, on prendra alors la valeur de p calculée pour les variances non

homogènes.

3.1. Calculer la valeur de t

3.1.1. Pour les pressés : "En bref"

Liens de pratique avec un logiciel de statistiques :

                   _ obtenir des résultats de test t à deux échantillons indépendants                            sous Excel (voir une vidéo).

                           sous SPSS (voir une vidéo)

          _ Interpréter des résultats de test t à deux échantillons indépendants.Â

Soient deux échantillons réels, respectivement d'effectifs, moyennes et écarts-types n1, m1, s1, et n2, m2, s2.Â

On commence par calculer l'erreur standard ESv de l'échantillon virtuel constitué par les deux échantillons indépendants :

                      {moslatex}$$ES_v=\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}$${/moslatex}

Et ensuite le t est donné par la formule

                              {moslatex}$$t=\frac{(m_1-m_2)}{ES_v}$${/moslatex}

https://uohpsy2.univ-tlse2.fr/UOHPsy2 Propulsé par Joomla! Généré: 11 May, 2022, 18:36

(12)

Â

On présente le résultat en écrivant t(ddl)=n.nn (pour la présentation de la valeur p, voir l'article général sur la norme APA de présentation).

Â

3.1.2. Pour ceux qui aiment comprendre : D'où cela vient-il ?

Dans le test du t de Student, la statistique calculée est précisément la valeur t.

Dans le cas de la comparaison de deux échantillons indépendants, voyons quelle formule employer. Commençons par rappeler la formule générale du t :

Soient mv la moyenne d'un échantillon virtuel de taille nv et ESv son erreur-standard,

on a

{moslatex}$$t=\frac{m_v}{ES_v}$${/moslatex}

Â

Ici notre échantillon virtuel est composé des deux échantillons indépendants réels. Sa moyenne est mv = (m1-m2) où m1 et m2 sont les moyennes des deux échantillons réels.

Le calcul de ESv l'erreur standard de l'échantillon virtuel est moins naturel. En effet, ces deux échantillons étant

indépendants, ils renvoient à des effectifs de taille potentiellement différentes et l'erreur standard de deux échantillons de tailles différentes ne s'obtient malheureusement pas en faisant simplement la moyenne des erreurs-standards. L'écart- type de l'échantillon virtuel issu de deux échantillons de tailles n1 et n2, de moyennes m1 et m2, et d'écarts-types s1 et s2 peut s'obtenir de la façon suivante :Â

(13)

               Â

{moslatex}$$s_v^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$${/moslatex}

On produit alors l'ES standard de l'échantillon virtuel par la formule

               Â

{moslatex}$$ES_v=s_v\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$${/moslatex}

Finalement, il ne reste plus qu'Ã calculer t :

                                {moslatex}$$t=\frac{m_v}{ES_v}$${/moslatex}

Â

3.2. Comment obtenir la valeur p associée ?

Il nous faut connaître la valeur t et le ddl nombre de degrés de libertés.

Ici l'échantillon virtuel a le même nombre de degrés de libertés que l'ensemble des degrés de libertés des échantillons dont il est composé. Soit (n1-1) pour le premier groupe et (n2-1) pour le deuxième groupe, ce qui nous donne au total

ddlv=n1+n2-2.

Si elle n'est pas directement donnée par votre logiciel de statistique, la valeur p associée s'obtient

- soit en regardant dans une table du t de student en prenant comme entrée la valeur du t ainsi calculée et comme nombre de degrés de libertés la valeur n-1 où n est le nombre de mesures.

- Soit au moyen d'une formule de tableur sous Microsoft Office Excel ou OpenOffice Calc :

"=LOI.STUDENT.BILATERALE(t; ddl)"

Â

2.3. Unilatéral ou bilatéral ?

https://uohpsy2.univ-tlse2.fr/UOHPsy2 Propulsé par Joomla! Généré: 11 May, 2022, 18:36

(14)

Par défaut, on travaillera en bilatéral et on se contentera de la valeur p précédemment obtenue.

Si toutefois on dispose d'une hypothèse orientée et que les statistiques descriptives vont dans le sens attendu (typiquement on s'attend à ce

que m1>m2 et c'est le cas au niveau descriptif, ou bien on s'attend à ce que m1<m2 et c'est le cas au niveau descriptif), alors on peut travailler en unilatéral : il suffit alors de prendre la valeur p précédemment obtenue et de la diviser par 2 avant de décider si le test est significatif ou non.

2.4. Un exemple

Supposons que l'on ait une hypothèse théorique (fictive) selon laquelle les premiers astronautes envoyés devraient avoir plus de 38 ans en moyenne mais que ceux envoyés après une certaine date sont plus jeunes. Imaginons que la seule information dont nous disposions est l'âge des

astronautes au moment de leur sortie sur notre satelite, et supposons encore que 6 de ces astronautes appartiennent au premier groupe, et les 6 autres au deuxième groupe. Nous obtenons le tableau suivant :

 Individu  Groupe Age

    1     1

 32

    2     1  38

    3     1  36

   4     1  37

    5     1  42

    6     1  26

(15)

    7     2  39

    8     2  35

    9     2  33

   10     2  34

   11     2  37

   12     2  36

 À partir de ce tableau il est facile de calculer la moyenne et l'écart-type des âges pour chacun des deux groupes, soit

                              {moslatex}$m_1=\frac{\sum_{i=1}^{6}x_i}{6}=40.17${/moslatex}

                              {moslatex}$m_2=\frac{\sum_{i=7}^{12}x_i}{6}=33.50${/moslatex}

et

 Â

{moslatex}$s_1=\sqrt{\frac{\sum_{i=1}^6(x_i-m_1)^2)}{n_1-1}}=\sqrt{\frac{\sum_{i=1}^{6}(x_i- 40.17)^2)}{5}}=3.82${/moslatex}

 Â

{moslatex}$s_2=\sqrt{\frac{\sum_{i=7}^{12}(x_i-m_2)^2)}{n_2-1}}=\sqrt{\frac{\sum_{i=7}^{12}(x_i- 33.50)^2)}{5}}=4.14${/moslatex}

https://uohpsy2.univ-tlse2.fr/UOHPsy2 Propulsé par Joomla! Généré: 11 May, 2022, 18:36

(16)

Attention au fait que dans ce cas, le tableau représente un échantillon de la population totale des astronautes et l'on utilise la

formule de l'écart-type pour échantillon (on divise par n-1) et non de l'écart-type pour population (où l'on divise par n).

L'écart-type de l'échantillon virtuel issu de deux échantillons de tailles n1 et n2, de moyennes m1 et m2, et d'écarts-types s1 et s2 peut s'obtenir de la façon suivante :Â

               Â

{moslatex}$$s_v^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}=\frac{5\times 3.82^2+5\times4.14^2}{10}=15.83$${/moslatex}

Il ne reste alors qu'à produire l'ES de l'échantillon virtuel par la formule

               Â

{moslatex}$$ES_v=\sqrt{s_v^2\times(\frac{1}{n_1}+\frac{1}{n_2})}=\sqrt{15.83^2\times(\frac{1}{6}+\frac{1}{6})}=9.14$${/m oslatex}

Finalement, il ne reste plus qu'Ã calculer t :

                               Â

{moslatex}$$t=\frac{m_v}{ES_v}=\frac{(40.17-33.50)}{9.14}=0.729$${/moslatex}

Â

Ensuite sous Excel par exemple, en appliquant la formule =LOI.STUDENT.BILATERALE(t; ddl)" avec le t que l'on vient de calculer et ddl=6+6-2=10 degrés de libertés, on trouve p=0.48255927.

Pour un test du t, la question suivante à se poser concernerait le

caractère bilatéral ou non du test. Ici de toute façon, même si on divisait par deux la valeur de p, on serait encore très largement au dessus du seuil de signification donc ce n'est pas la peine d'aller plus loin : le test n'est pas significatif et l'on ne peut pas conclure qu'il existe une différence entre les groupes.

On pourra rapporter le résultat en disant que t(10)=0.73, ns.

Dans certains cas, il peut être intéressant tout de même de rapporter la valeur exacte p.

(17)

 Â

{mospagebreak title=3. Deux échantillons appariés} Â

Â

4. Comparer deux échantillons appariés.

L'hypothèse nulle est ici la suivante : m1=m2. Ou encore, ce qui revient au même, m1-m2=0.

Par

exemple, si l'on a fait une comparaison avant-après, en faisant la

différence des deux valeurs obtenues pour chaque sujet, on obtient une nouvelle variable qu'il suffit de comparer, par un test à un échantillon vu précédemment, contre la valeur de référence 0.

On pourra ensuite interpréter

la différence en termes de progression : si la moyenne est significativement supérieure à 0 il y aura eu augmentation, si la moyenne est significativement inférieure à 0 il y aura eu diminution.

Enfin, si la différence n'est ni significativement supérieure ni significativement inférieure à zéro, on ne peut pas dire qu'il y a un effet avant-après.Â

Préalables spécifiques de cette version du test de Student :

1. Il faut avoir deux

échantillons d'un même type de mesure (par exemple, un temps de réponse dans les deux cas) recueillis à raison de deux données par individu statistique et sur lesquelles on peut procéder à une différence.

2. Les données de l'échantillon devraient idéalement être normalement distribuées. Cliquez ici pour accéder à l'article expliquant comment vérifier si cette condition est réalisée.

Â

2.1. Obtenir la valeur de t

https://uohpsy2.univ-tlse2.fr/UOHPsy2 Propulsé par Joomla! Généré: 11 May, 2022, 18:36

(18)

2.1.1. Pour les pressés : "En très bref"

À partir des deux échantillons de données appariées, on construit la variable de différence en calculant pour chaque ligne i, la valeur xi = xi1-xi2. Cela nous donne un échantillon réel de taille n (ici n couples de données), de moyenne m et

d'écart-type s.Â

Selon les informations dont on dispose, on applique la formule avec l'erreur standard ES,

                              {moslatex}$$t=\frac{m}{ES}$${/moslatex}

ou, ce qui revient au même, celle avec l'effectif et l'écart-type d'échantillon,

                               {moslatex}$$t=m\times\frac{\sqrt{n}}{s}$${/moslatex}

 On présente le résultat en écrivant t(ddl)=n.nn (pour la présentation de la valeur p, voir l'article général sur la norme APA de présentation).

Â

2.2. Comment obtenir la valeur p associée ?

Il nous faut connaître la valeur t bien sûr et le nombre de degrés de liberté.

Ici l'échantillon virtuel a la même taille que l'échantillon réel, soit n individus. Le nombre de degrés de liberté est directement ddl=n-1.Â

Si elle n'est pas directement donnée par votre logiciel de statistique, la valeur p associée s'obtient

- soit en regardant dans une table du t de student en prenant comme entrée la valeur du t ainsi calculée et comme nombre de degrés de liberté la valeur n-1 où n est le nombre de mesures.

- Soit au moyen d'une formule de tableur sous Microsoft Office Excel ou OpenOffice Calc :

"=LOI.STUDENT.BILATERALE(t; ddl)"

(19)

Â

2.3. Unilatéral ou bilatéral ?

Par défaut, on travaillera en bilatéral et on se contentera de la valeur p précédemment obtenue.

Si toutefois on dispose d'une hypothèse orientée et que les statistiques descriptives vont dans le sens attendu (typiquement on s'attend à ce

que m>0 et c'est le cas au niveau descriptif, ou bien on s'attend à ce que m<0 et c'est le cas au niveau descriptif), alors on peut travailler en unilatéral : il suffit alors de prendre la valeur p précédemment obtenue et la diviser par 2 avant de décider si le test est significatif ou non.

Â

2.4. Un exemple

Dans une expérience sur le risque lié à l'alcool, on a demandé à chacun des 31 participants d'évaluer le risque associé à une situation de conduite sur une échelle de 1 à 5.

On a obtenu, en rangeant les données à raison d'une ligne par sujet, le tableau suivant :Â

Sans alcool Avec alcool Différence

1 5 4

1 5 4

1 5 4

1 4 3

https://uohpsy2.univ-tlse2.fr/UOHPsy2 Propulsé par Joomla! Généré: 11 May, 2022, 18:36

(20)

1 4 3

1 4 3

1 4 3

1 5 4

1 5 4

1 4 3

1 5 4

1 4 3

1 5 4

1 5 4

2 5 3

1 5 4

1 5 4

(21)

1 4 3

1 5 4

1 5 4

2 4 2

1 5 4

1 5 4

1 3 2

2 5 3

1 5 4

1 3 2

1 5 4

1 5 4

1 3 2

https://uohpsy2.univ-tlse2.fr/UOHPsy2 Propulsé par Joomla! Généré: 11 May, 2022, 18:36

(22)

1 4 3

Â

En première approximation, on a constaté que la moyenne de la situation sans alcool est de 1.10 alors que la colonne 2 est en moyenne à 4.52. Descriptivement on pourrait donc dire que les participants jugent la situation 2 plus risquée que la situation 1... mais est-ce vrai statistiquement ?

La troisième colonne a été obtenue en faisant la différence de la colonne 2 (avec alcool) et de la colonne 1 (sans alcool). Nous allons travailler à partir de cette colonne.

À partir de ce tableau il est facile de calculer la moyenne et l'écart-type des différences, soit

                              {moslatex}$m=\frac{\sum_{i=1}^{31}x_i}{31}=3.42${/moslatex}

Pour ceux qui se rappellent que la moyenne des différences est égale à la différence des moyennes (les effectifs étant ici égaux), cette moyenne est sans surprise puisque 5.52 - 1.10 = 3.42.

Pour l'écart-type,

          Â

{moslatex}$s=\sqrt{\frac{\sum_{i=1}^n(x_i)^2)}{n-1}}=\sqrt{\frac{\sum_{i=1}^{31}(x_i-3.42)^2)}{30}}=0.72${/moslatex}

Nous obtenons

                      Â

{moslatex}$t=m\times\frac{\sqrt{n}}{s}=3.42\times\frac{\sqrt{31}}{0.72}=26.4${/moslatex}Â

Ensuite sous Excel par exemple, en appliquant la formule =LOI.STUDENT.BILATERALE(t; ddl)" avec le t que l'on vient

de calculer et ddl=31-1=30 degrés de libertés, on trouve p=2.4x10-22, ce qui est quasiment égal à zéro. Autrement dit, ce n'est même pas la peine de se poser la question de la latéralité : de toute façon le test est très nettement significatif.

(23)

Finalement on peut rapporter le résultat, conformément aux normes :

               t(30)=26.4, p<.001, ce qui est significatif : on peut donc conclure que la sitation 2 est jugée plus risquée par les participants que la situation 1.

Â

https://uohpsy2.univ-tlse2.fr/UOHPsy2 Propulsé par Joomla! Généré: 11 May, 2022, 18:36

Références

Documents relatifs

a) en n’utilisant aucune pondération des élèves. b) en utilisant les pondérations des élèves. Premièrement, vous devez incorporer la pondération des élèves à votre ensemble

incidence MAJEURE sur les analyses subséquentes. Par conséquent, il est important de vous assurer que tous vos ensembles de données sont corrects avant de commencer toute analyse.

• Le polygone des effectifs cumulés croissants (respectivement décroissants) d’une série statistique conti- nue est la ligne brisée qui joint les points du plan dont les

Calculer la médiane pour chaque série de notes de Jérôme, de Bertrand et de Julie. Pour déterminer les notes médianes, il faut ordonner les séries. La médiane partage l’effectif

On partage le nuage de points en deux nuages, on détermine les coordonnées G 1 et G 2 des points moyens respectifs du premier nuage et du deuxième nuage. La droite (G 1 G 2 ), droite

On cherche à déterminer une fonction qui renvoie la moyenne d’une série qui sera composée de deux listes, l’une des valeurs, l’autre des effectifs.. Compléter ensuite le

§ Plus

Si on illustre une distribution quelconque (ses fréquences obtenues ou encore sa fonction de masse PDF, si connue) en utilisant un graphique avec une courbe continue, on