• Aucun résultat trouvé

Probabilités sur un ensemble non dénombrable

Dans le document Psychologie statistique avec R (Page 89-95)

Les notions présentées dans les sections précédentes ont été construites en réflé-chissant sur un ensemble des possibles dénombrable et fini (le résultat du lancer d’un dé n’a que six valeurs possibles). Mais il existe des mesures en psychologie dont l’ensemble des modalités n’est pas dénombrable.

En mathématiques, on parle d’ensemble dénombrable quand il est possible de mettre en correspondance chacune de ses modalités avec l’une des valeurs d’une numérotation par entiers. On peut noter au passage que cette définition n’implique pas que l’ensemble des modalités soit fini, car l’ensemble des entiers est lui-même infini.

Nous nous intéressons dans cette section à la définition d’une distribution de pro-babilité sur une variable dont l’ensemble des modalités n’est pas dénombrable.

C’est le cas d’une mesure de temps de réaction par exemple, dans une expérience sur la vitesse d’identification d’une cible visuelle. Si l’on souhaitait numéroter par entiers des valeurs de temps, on se heurterait à la difficulté d’avoir à définir ce qu’est la « valeur suivante » pour une mesure de temps. La propriété de continuité fait qu’entre deux valeurs de temps choisies arbitrairement proches, il y en a encore une infinité ! C’est ce qu’on appelle lapuissance du continu.

Pour ce type de variable, la continuité pose un problème spécifique dans la défini-tion d’une probabilité, qui oblige à introduire un nouveau cadre de réflexion.

1. La notation ci-dessus est traditionnelle en France. La notation équivalente N

n1,n2,...,nK

tend aujourd’hui à s’y substituer.

4.5.1 Simulation d’un processus uniforme

Nous allons explorer cette question à partir d’un mécanisme aléatoire très simple à définir, qui généralise la notion d’équiprobabilité au cas continu. Nous considérons un processus qui engendre un nombre quelconque compris entre 0 et 1, de telle sorte que toute valeur sur cet intervalle a les mêmes chances d’apparaître. C’est ce qu’on appelle une loi uniforme. La fonction runif en Rpermet de simuler un tel processus, pour un intervalle[a;b]prédéfini.

La syntaxe runif(n,a,b)génèrenvaleurs aléatoires tirées dans l’intervalle[a;b]

selon une loi uniforme. On peut dans la console deR appeler plusieurs fois cette fonction, avecn= 1, pour comprendre son fonctionnement (par défautaetbsont fixés à 0 et 1) :

>runif(1) [1] 0.5688801

>runif(1) [1] 0.9207203

>runif(1) [1] 0.2060877

>

Les valeurs obtenues ci-dessus ne seront évidemment pas les mêmes que celles qui apparaîtront sur votre écran : il s’agit bien d’un processus aléatoire. Dans une loi uniforme, toute valeur de la variable X définie sur [a;b] a les mêmes chances d’apparaître. On écrit symboliquement : X ∼U(a, b), où le symbole ’’ signifie

« est tiré dans une loi... » et le symbole U représente la fonction de probabilité uniforme, dont les argumentsaetb sont appelésparamètres de la loi.

Mais comment écrire algébriquement la fonction de probabilité correspondante ? Nous supposons qu’elle sera de la formef(x) =c, oùcest une constante, puisque toutes les valeurs ont la même chance d’apparaître, mais que vautc?

Nous allons approcher cette question de manière graphique, à travers des histo-grammes de fréquences. Dans l’étude du lancer d’un dé dans les chapitres précé-dents, cette approche s’était avérée fructueuse, puisqu’en poussant à la limite le nombre de lancers, la fréquence empirique d’apparition de chaque face se rappro-chait de plus en plus de la probabilité théorique.

Construisons une représentation graphique de la distribution empirique qui résulte d’un tirage de 500 valeurs selon cette loi. Nous savons que pour la représentation sous forme d’histogramme d’une distribution empirique continue, on procède par regroupement en classes. C’est ce que l’interface graphiqueAtelieRva faire auto-matiquement pour nous.

Atelier 4.1 (Construction de la loi uniforme) 1. Charger sous R la librairie AtelieR par la commande : library(AtelieR)

2. Dans le menu Ateliers>Comprendre, charger le module « Construction de la loi normale ». Cet atelier simule le processus de tirage aléatoire dans l’une ou l’autre des quatre lois de probabilité : uniforme, binomiale, normale, Gamma (nous étudierons ces trois dernières plus loin). Sélectionner « loi uniforme » (voir fig. 4.3), puis fixer à 0 et 1 les valeurs de paramètres 1 et 2 (qui représentent les bornesaetbde la loi uniforme).

3. Fixer à 500 le nombre d’observations et cliquer sur le bouton « Afficher » pour générer un histogramme regroupé en classes d’un tirage aléatoire de 500 valeurs dans uneU(0,1). Pour un échantillon donné, on constate que les bâtons ne sont pas tous d’égale hauteur, bien que nous sachions que toutes les valeurs ont même probabilité d’apparaître. C’est l’effet de l’erreur d’échantillonnage, qui résulte de ce que nous observons le résultat de ce processus aléatoire sur un nombre fini d’observations (500). De la même façon, même si nous savons qu’une pièce équilibrée a une chance sur deux de retomber sur « pile » lors d’un lancer, nous ne nous attendons pas à ce que sur 10 lancers, elle retombe exactement 5 fois sur « pile ».

4. Si l’on tire successivement plusieurs échantillons de taille 500 (en cliquant plusieurs fois sur le bouton

« Afficher »), on perçoit que les hauteurs de bâtons fluctuent néanmoins autour d’une valeur fixe. Pour un découpage en 10 classes, et en supposant que toutes les valeurs ont bien la même chance d’apparaître, on s’attend à ce que les classes contiennent le même nombre théorique d’observations, c’est-à-dire500/10 = 50 observations. Vérifier ce point.

5. De la même façon, on s’attend à voir les fréquences de classes (cliquer sur l’option d’affichage « Fré-quences ») fluctuer autour de la valeur1/10 = 0.1. C’est ce qu’on appelle un effectif ou une fréquence théorique, car sur un échantillon donné, la distributionempirique sera toujours différente de cet idéal.

Pouvons-nous en conclure qu’une fonctionf(x) = 0.10rendrait compte du processus probabiliste sous-jacent ?

6. Le champ « Coupures » permet de définir le nombre de coupures qu’on veut pour construire des classes d’histogramme de largeurs constantes. En entrant la valeur 51 dans le champ « Coupures », on provoque le regroupement des données en 50 classes. On s’attend maintenant à un effectif théorique de500/50 = 10 observations par classes, ou une fréquence théorique de1/50 = 0.02.

On voit ainsi que les valeurs d’effectifs et de fréquences de classes changent aussi selon le nombre de classes qu’on choisit. Si nous étions tentés d’imaginer que la fonction de la loi uniforme était de la forme f(x) = 0.1 sur la base de ce qui précède, le changement du nombre de classes nous en dissuade.

La représentation graphique d’une distribution continue de probabilité pose donc problème, ainsi que la définition d’unefonction de probabilité pour ces variables.

Comment calculer P(X = 0.5)par exemple ?

Fig. 4.3– Regroupement en classes dans une loi continue

4.5.2 Probabilité ponctuelle dans une loi continue

Il est plus simple d’aborder cette question en cherchant à calculer la probabilité cumulée à gaucheP(X <0.5)dans uneU(0,1). A partir de la propriété définitoire

« toute valeur de la variable a même probabilité », on voit tout de suite que la masse de probabilité est la même à gauche et à droite de la valeur ponctuelle 0.5 et que par conséquent P(X <0.5) =P(X > 0.5) = 0.5. De façon analogue, on aurait par exemple P(X < 13) = 12P(X > 13)autrement ditP(X < 13) = 13. On mène facilement le même raisonnement sur n’importe quelle valeur du segment [0; 1]. La fonction de répartition (ou fonction de probabilité cumulée à gauche) d’une loi uniforme a donc une forme simple, linéaire :

P(X < x) =x.

On peut en déduire que la probabilité sur lak-ième classeCk = [ak;bk]de l’histo-gramme est :

P(ak < X < bk) =P(X < bk)−P(X < ak) =bk−ak.

La probabilité de voir apparaître une valeur comprise dans cet intervalle est donc simplement égale à la largeur de la classe. On a par exemple :

P(0.4< X <0.6) =P(X <0.6)−P(X <0.4) = 0.60.4 = 0.2.

Si l’on diminue arbitrairement l’intervalle considéré autour de sa valeur centrale 0.5, on voit immédiatement que la probabilité correspondante tend vers 0. A la limite, en concevant la valeur ponctuelle 0.5 comme un intervalle de largeur infini-tésimale centré sur 0.5, on en conclut que la probabilitéP(X= 0.5)... est nulle ! A l’issue de ce raisonnement, nous comprenons que dans une loi continue, toutes les probabilités ponctuelles sont nulles. On peut donc par exemple écrire que, pour tout x:

P(X ≤x) =P(X < x) +P(X=x) =P(X < x).

Clairement, une probabilité nulle n’est plus associée à l’événement impossible. Une fonction de la forme P(X =x) = 0,∀xlaisse sceptique : elle traduit mal l’expé-rience concrète de valeurs ayant la même probabilité d’apparition et donnerait toujours la même valeur quelle que soit l’étendue du domaine de définition [a;b]

de la loi uniforme considérée.

Pour pouvoir manipuler des variables avec un nombre infini de modalités, nous devons changer de cadre conceptuel. Nous avons vu comment le nombre de classes a un impact sur la forme de l’histogramme empirique. Mais la largeur de ces classes en a aussi. Comme nombre et largeurs de classes sont liés, on peut mieux percevoir l’impact de la largeur en créant des classes de largeurs inégales.

Atelier 4.2 (Impact des largeurs de classes)

1. On peut dans le champ « Coupures » entrer soit un nombre unique (représentant le nombre de coupures voulu), soit une suite de valeurs séparées par des espaces (représentant alors les valeurs de coupures elles-mêmes). On peut par exemple observer le résultat d’un découpage selon les bornes d’intervalle : 0.0 0.3 0.6 0.7 1.0 (ne pas oublier d’inclure les bornes extrêmes 0 et 1).

2. L’effet est mieux perçu en rééchantillonnant de manière répétée (bouton « Afficher »).

Clairement, une classe plus large a plus de chances de contenir davantage d’ob-servations et on constate que, au-delà de l’erreur d’échantillonnage, le bâton de la classe[0.6; 0.7]est systématiquement plus petit que les autres. Nous souhaiterions dans l’idéal définir un mode de représentation qui soit indépendant du choix de regroupement, en nombre comme en largeur de classe. Cela donnerait sans doute une piste pour une définition satisfaisante d’une fonction de probabilité uniforme.

4.5.3 Construction de la densité uniforme

Pour gérer les largeurs de classes inégales, on utilise une pondération inverse par les largeurs de classes : plutôt que de raisonner sur la fréquence de la classek de largeurlk, on calcule unedensité de fréquence dk :

dk =fk

lk.

C’est le même procédé que celui qui consiste, en géographie, pour comparer les tailles de populations d’un département français à un autre, à les calculer par unité de surface, pour pouvoir comparer des départements de tailles de territoire différentes. On parle alors de « densité de population ».

En sélectionnant l’option d’affichage « Densités » dans l’interface et en échantillon-nant plusieurs fois, on constate que : i) la pondération inverse par les largeurs de classe a bien rééquilibré l’importance des classes (la hauteur des bâtons de den-sité fluctue autour d’une unique valeur) et ii) cette valeur unique est 1. On peut constater, en changeant arbitrairement le nombre de classes ou en définissant des coupures inégalement réparties, que ces deux propriétés sont stables. Le passage aux densités fournit donc une représentation qui respecte le mécanisme de géné-ration de données sous-jacent (loi uniforme).

Cela suggère d’étendre cette notion aux probabilités, en définissant unedensité de probabilité. Avec cette standardisation, on voit que la densité théoriqueδk pour une classeck= [ak;bk]construite sur uneU(0,1)est :

δk = P(ak< X < bk) bk−ak

= P(X < bk)−P(X < ak) bk−ak

= bk−ak bk−ak

= 1.

Elle est constante, quelle que soit la largeur de la classe (et donc y compris pour une valeur ponctuelle), ce qui traduit bien l’équiprobabilité. La notion de densité de probabilité permet donc de définir une fonction univoque, indépendante des largeurs et nombre de classes, qui donne prise sur le continu.

La loi uniforme U(0,1) peut donc être définie de manière exacte par la fonction : f(x) = 1,∀x∈[0; 1],

f désigne lafonction de densité de probabilité.

Atelier 4.3 (Notion de densité)

1. Il est possible dans l’interface de superposer la densité empirique d’un échantillon tiré de la loi uniforme (cliquer sur l’option d’affichage « Densités ») et la densité théorique exacte f(x) = 1, en cliquant sur l’option « Afficher la loi théorique ».

2. En augmentant arbitrairement la taille de l’échantillon jusqu’à50000, on voit comment les densités de fréquences, représentées par les bâtons, tendent vers la loi théorique.

3. Observer ce qui se passe quand on définit des classes de largeurs inégales, au besoin en cliquant plusieurs fois sur le bouton « Afficher ».

Fig. 4.4– Notion de densité uniforme

4.5.4 Notion d’intégrale

On note que la représentation en fréquences avait pour propriété

kfk = 1, ce qui n’est bien sûr plus vrai pour les densités. Mais commefk=dklk on a :

k

dklk = 1.

Graphiquement, la quantitédklk représente le produit de la largeur par la hauteur du bâtonk, autrement dit sasurfacedans l’histogramme des densités. C’est donc la surface complète de l’histogramme empirique qui est égale à 1 dans cette nouvelle représentation.

De façon analogue, le lien entre probabilité et densité théorique d’une classe ap-paraît dans l’expression :

P(ak < X < bk) =δk×lk.

On voit que ce qui a le sens d’une probabilité dans la représentation graphique d’une fonction de densité, ce n’est pas la valeur sur la courbe (plate en l’occur-rence), mais la surface sous cette courbe.

En rétrécissant arbitrairement l’intervalle autour d’une valeur ponctuellex, jusqu’à obtenir un intervalle infiniment petit, on a :

P(X =x) =f(x)dx,

dxreprésente symboliquement une largeur infiniment proche de 0. Lorsque l’on fait tendre simultanément le nombre de classes vers + et leurs largeurs vers 0 (sans jamais l’atteindre), on obtient une infinité d’intervalles de largeurs infinitési-males. La somme qui porte sur une série infinie de termes infinitésimaux est notée classiquement en mathématiques avec les médiéval

(« somme ») et on a : 1

0

f(x)dx= 1,

où l’on écrit en bas et en haut les bornes du domaine sur lequel on somme (de 0 à 1). La fonction f décrit la densité de probabilité de la variable et dxla largeur infinitésimale des classes. Cette expression est celle d’une intégrale et représente un mode de calcul de surface sous une courbe, en mathématiques. On voit que n’im-porte quelle fonction de densité aura toujours une surface sous la courbe égale à 1.

A cause de ce traitement particulier du continu, on jugera de la probabilité d’un événement sur une variable continue (score ou valeur de statistique) en raisonnant non pas sur des probabilités (toujours nulles), mais sur des densités ou bien des probabilités cumulées. En particulier, on définira pour nos tests d’inférence une notion de valeur p, soit la probabilité d’observer une valeur de statistique au moins aussi extrême que celle observée.

Dans le document Psychologie statistique avec R (Page 89-95)