• Aucun résultat trouvé

Autres distributions utiles

Dans le document Apprentissage des statistiques avec Jamovi (Page 139-143)

La distribution normale est la distribution la plus utilisée par les statistiques (pour des raisons qui seront discutées sous peu), et la distribution binomiale est très utile à de

nombreuses fins. Mais le monde des statistiques est rempli de distributions de probabilités, dont certaines que nous rencontrerons en passant. En particulier, les trois qui apparaîtront dans ce livre sont la distribution t, la distribution 𝜒2 et la distribution F. Je ne donnerai pas

de formules pour aucune d’entre elles, ni n’en parlerai trop en détail, mais je vais vous montrer quelques images.

43 Pour les lecteurs qui connaissent un peu le calcul, je vais donner une explication un peu

plus précise. De la même manière que les probabilités sont des nombres non négatifs qui doivent s’additionner à 1, les densités de probabilité sont des nombres non négatifs qui doivent s’intégrer à 1 (où l’intégrale est prise sur toutes les valeurs possibles de X). Pour calculer la probabilité que X se situe entre a et b, nous calculons l’intégrale définie de la fonction de densité sur la plage correspondante, ∫ 𝑝(𝑥)dx𝑎𝑏 .Si vous ne vous souvenez pas ou si vous n’avez jamais appris le calcul, ne vous en faites pas. Ce n’est pas nécessaire pour ce livre.

Figure 7‑10 : Distribution t avec 3 degrés de liberté (ligne pleine). Cela ressemble à une distribution normale, mais ce n’est pas tout à fait la même chose. À des fins de comparaison, j’ai tracé une distribution normale standard sous la forme d’une ligne pointillée.

Figure 7‑11 : Une distribution 𝜒2 avec 3 degrés de liberté. Notez que les valeurs observées

doivent toujours être supérieures à zéro et que la distribution est assez asymétrique. Ce sont les principales caractéristiques d’une distribution du chi carré

Figure 7‑12 : Une distribution F avec 3 et 5 degrés de liberté. Qualitativement parlant, cela ressemble beaucoup à une distribution du chi carré, mais ce n’est pas tout à fait la même chose

La distribution t est une distribution continue qui ressemble beaucoup à une distribution normale, voir Figure 7‑10. Notez que les « queues » de la distribution t sont « plus lourdes » (c’est-à-dire qu’elles s’étendent plus vers l’extérieur) que les queues de la distribution normale). C’est la différence importante entre les deux. Cette distribution tend à se produire dans les situations où vous pensez que les données suivent une distribution normale, mais que vous ne connaissez pas la moyenne ou l’écart-type. Nous reviendrons sur cette distribution au chapitre 11.

La distribution 𝜒2 est une autre distribution qui apparaît dans beaucoup d’endroits

différents. La situation dans laquelle nous le verrons est celle de l’analyse des données catégoriques (chapitre 10), mais c’est l’une de ces choses qu’on rencontre un peu partout en fait. Quand vous creusez dans les mathématiques (et qui n’aime pas faire cela ?), il s’avère que la principale raison pour laquelle la distribution 𝜒2 apparaît

partout est que si vous avez plusieurs variables qui sont normalement distribuées, que vous calculez le carré leurs valeurs et puis les additionner (une procédure appelée « faire la somme des carrés »), cette somme a une distribution 𝜒2. Vous seriez étonné

de voir combien de fois ce fait s’avère utile. Quoi qu’il en soit, voici à quoi ressemble une distribution de 𝜒2 : Figure 7‑11.

La distribution F ressemble un peu à une distribution 𝜒2, et elle apparaît chaque fois

que vous avez besoin de comparer deux distributions 𝜒2 entre elles. Certes, cela ne

semble pas exactement quelque chose que toute personne saine d’esprit voudrait faire, mais cela s’avère très important dans l’analyse des données du monde réel. Rappelez- vous quand j’ai dit que 𝜒2 s’avère être la distribution clé quand on prend une « somme

de carrés » ? Eh bien, ce que cela signifie, c’est que si vous voulez comparer deux « sommes de carrés » différents, vous parlez probablement de quelque chose qui a une distribution F. Bien sûr, je ne vous ai pas encore donné d’exemple de quelque chose qui implique une somme de carrés, mais je le ferai au chapitre 13. Et c’est là qu’on tombera sur la distribution F. Oh, et il y a une image à la Figure 7‑12.

Bien, il est temps de terminer cette section. Nous avons vu trois nouvelles distributions : 𝜒2, t et F. Ce sont toutes des distributions continues, et elles sont toutes étroitement liées à la

distribution normale. L’essentiel pour nous, c’est que vous saisissiez l’idée de base que ces distributions sont toutes profondément liées les unes aux autres, et à la distribution

normale. Plus loin dans ce livre, nous allons rencontrer des données qui sont normalement distribuées, ou du moins supposées l’être. Ce que je veux que vous compreniez maintenant, c’est que, si vous supposez que vos données sont normalement distribuées, vous ne devriez pas être surpris de voir les distributions 𝜒2, t et F apparaître partout quand vous

commencez à essayer de faire votre analyse de données.

Résumé

Dans ce chapitre, nous avons parlé de probabilité. Nous avons parlé de ce que la probabilité signifie et pourquoi les statisticiens ne s’entendent pas sur ce qu’elle signifie. Nous avons parlé des règles auxquelles les probabilités doivent obéir. Et nous avons introduit l’idée d’une distribution de probabilités et passé une bonne partie du chapitre à parler de certaines des distributions de probabilités les plus importantes avec lesquelles les statisticiens travaillent. La ventilation section par section ressemble à ceci :

• Théorie des probabilités et statistiques (section 7.1)

• Opinions fréquentistes et bayésiennes sur la probabilité (section 7.2) • Notions de base de la théorie des probabilités (section 7.3)

• Distribution binomiale (section 7.4), distribution normale (section 7.5) et autres (section 7.6)

Comme vous pouvez vous y attendre, ce panorama n’est en aucun cas exhaustif. La théorie des probabilités est une importante branche des mathématiques à part entière, entièrement distincte de son application aux statistiques et à l’analyse des données. Ainsi, il existe des milliers de livres écrits sur le sujet et les universités offrent généralement de multiples cours entièrement consacrés à la théorie des probabilités. Même la tâche « plus simple » de documenter les distributions de probabilités standard est un grand sujet. J’ai décrit cinq distributions de probabilités standard dans ce chapitre, mais j’ai un livre de 45 chapitres intitulé « Statistical Distributions » (Evans, Barston, and Pollard 1983) qui contient

beaucoup plus que cela. Heureusement pour vous, très peu sont nécessaires. Il est peu

probable que vous ayez besoin de connaître des douzaines de distributions statistiques lorsque vous effectuez des analyses de données dans le monde réel, et vous n’en aurez

certainement pas besoin pour ce livre, mais cela ne fait jamais de mal de savoir qu’il y a d’autres possibilités.

Pour en revenir à ce dernier point, on a l’impression que tout ce chapitre n’est qu’une digression. Beaucoup d’étudiants des cours de psychologie de premier cycle en statistique lisent ce contenu très rapidement (je sais que le mien l’a fait), et même les cours les plus avancés « oublient » souvent de revoir les fondements fondamentaux du domaine. La plupart des psychologues universitaires ne connaîtraient pas la différence entre la

probabilité et la densité et, jusqu’à tout récemment, très peu d’entre eux étaient au courant de la différence entre la probabilité bayésienne et la probabilité fréquentiste. Cependant, je pense qu’il est important de comprendre ces choses avant de passer aux applications. Par exemple, il y a beaucoup de règles sur ce que vous êtes « autorisé » à dire lorsque vous faites des inférences statistiques et beaucoup d’entre elles peuvent sembler arbitraires et étranges. Cependant, elles commencent à avoir du sens si vous comprenez qu’il y a cette distinction bayésienne/fréquentiste. De même, au chapitre 11, nous allons parler de ce qu’on appelle le t-test, et si vous voulez vraiment avoir une idée de la mécanique du t-test, il est vraiment utile d’avoir une idée de ce à quoi ressemble réellement une distribution t. Vous comprenez l’idée, j’espère.

Dans le document Apprentissage des statistiques avec Jamovi (Page 139-143)