• Aucun résultat trouvé

Variable quantitative discrète

Dans le document Psychologie statistique avec R (Page 26-32)

1.2 Structure de la mesure

1.2.3 Variable quantitative discrète

La variable « score d’anxiété » de l’étude, qui compte les manifestations somatiques de l’anxiété parmi 4, est une variable numérique : ses modalités sont des nombres.

On dira en outre qu’elle est discontinue, ou discrète, car entre deux scores contigus d’anxiété, il n’y en a pas d’autre.

Définition 1.14 (Variable discrète)

Une variable numérique est dite discrètesi son ensemble de modalités est fini, ou dénombrable (ses modalités peuvent être numérotées par les entiers naturels).

Tous les comptages d’événements (nombre d’items réussis à un test cognitif) sont des variables discrètes. Dans ce cas, l’intervalle entre deux valeurs ne peut des-cendre en dessous de l’unité.

Distributions

Quand la variable est discrète, les distributions d’effectifs et de fréquences obser-vées sur un échantillon sont résumées dans des tableaux d’effectifs et de fréquences identiques à ceux rencontrés pour les variables ordinales.

Dans notre exemple de score d’anxiété, nous pourrions avoir un tableau de distri-bution de la forme :

uk 0 1 2 3 4

nk 150 300 200 75 25

fk 0.200 0.400 0.26 0.100 0.04

Nk 0 150 450 650 725 750

Fk 0 0.20 0.60 0.86 0.96 1

Résumés

Le mode et la médiane sont calculables comme dans le cas ordinal. La modalité 1 est modale pour la réponse à l’item numérique dans l’exemple ci-dessus. Elle est également la médiane de la distribution.

Dans la détermination de la médiane, si l’on trouve exactement la fréquence 0.5 pour la coupure uk|uk+1, on choisit par convention de définir la médiane comme la valeurq1

2 = uk+2uk+1. Le calcul d’une valeur milieu pour un intervalle a en effet du sens à ce niveau numérique de la mesure.

Notion de moyenne

Comme les modalités sont désormais des nombres, additions et soustractions ont du sens (ainsi que division par une constante). Il est donc possible de calculer en outre lamoyenne arithmétique des valeurs observées.

Définition 1.15 (Moyenne arithmétique)

On appelle moyenne arithmétiquela somme des valeurs observées divisée par l’ef-fectif de l’échantillon.

Nous introduisons plusieurs conventions de notation à partir d’un exemple.

Dans une étude sur la mémoire, on observe pour 7 sujets les scores de rappel suivants : 5, 5, 6, 6, 6, 8, 8. Par convention, on notex¯la moyenne de la variableXy la moyenne de la variableY etc.). On calcule la moyenne du rappelX comme :

¯

x= 5 + 5 + 6 + 6 + 6 + 8 + 8

7 = 6.28.

En écriture symbolique, on peut écrire aussi, en numérotant par un indice i(i= 1, ..., N) les valeurs observées xi pour chacun des N sujets (le symbole i sera toujours utilisé pour numéroter des observations) :

¯

x=x1+x2+x3+x4+x5+x6+x7

N =

N i=1xi

N .

Le symbole de sommation

permet de résumer en un seul signe l’écriture fasti-dieuse d’une somme de nombreux termes. On y ajoute en bas le numéro du premier terme de la somme et en haut le numéro du dernier terme. On lit « somme dei= 1 jusqu’àN desxi divisée parN ». On voit tout de suite que la somme en question contient N termes (par exemple 750 sur notre exemple clinique).

Moyenne pondérée

Le calcul pratique de la moyenne sur un grand nombre de termes, sans ordina-teur, est fastidieux. Lorsque les données sont condensées sous forme de tableau de distribution d’effectifs, on peut la calculer de façon plus rapide.

On aurait ici un tableau de la forme :

Scores uk 5 6 8

Effectifs nk 2 3 2

La moyenne est calculable par :

¯

x=(5×2) + (6×3) + (8×2)

2 + 3 + 2 = 6.28.

En écriture symbolique, on numérote cette fois-ci par un indice k (k = 1, ..., K) les K valeurs de la variable et les effectifs correspondants (le symbole k servira toujours à numéroter les modalités d’une variable) :

¯

Lorsque les données sont présentées sous forme de tableau de distribution de fré-quences, un autre mode de calcul pondéré est encore possible. Le calcul pondéré ci-dessus peut en effet s’écrire :

¯

Les nombres 27, 37 et 27 sont simplement les fréquences d’apparition des modalités 5, 6 et 8. En écriture symbolique, on peut donc écrire aussi :

¯

x=f1u1+f2u2+f3u3= K k=1

fkuk. Sur notre distribution du score d’anxiété, nous trouvons :

¯

x= (0×150) + (1×300) + (2×200) + (3×75) + (4×25)

150 + 300 + 200 + 75 + 25 = 1025

750 1.367.

Propriétés de l’opérateur de sommation

L’opération de sommation d’une famille de termesxinumérotés pari(i= 1,2, ..., N), x1+x2+x3+...+xN, est notée :

N i=1

xi

et possède les trois propriétés suivantes, que nous utiliserons de manière répétée : 1. Sommation deN termes constants tous égaux à une valeur quelconqueu:

N

Règle pratique. Quand je repère une sommation sur un terme non indicé (et donc constant), je peux remplacer la somme de N termes par une multiplication.

2. Sommation de deux familles xi et yi de même effectif :

Règle pratique. L’opérateur de sommation se « distribue ».

3. Sommation du produit d’une famille de termesxi par une constantek: N

Règle pratique. Quand je repère une constante (c’est-à-dire un symbole non indicé) multiplicative dans une sommation, je peux la mettre en facteur.

4. Carré d’une somme :

Les trois propriétés de l’opérateur de sommation nous permettent facilement de montrer que la moyenne arithmétiquex¯vérifie les propriétés suivantes :

1. Propriété barycentrique. La somme des écarts à la moyenne est toujours nulle.

N i=1

(xi−x) = 0.¯ (1.2)

D’après les propriétés de la sommation, on peut en effet développer : N

2. Changement d’origine. Lorsqu’on augmente toutes les valeurs observées xi de X d’une même constantek, la moyenne de cette nouvelle variableX=X+k est augmentée de la même constante :

X= 3. Changement d’échelle. Lorsqu’on transforme toutes les valeurs observéesxi de X par un même facteur multiplicatif k, la moyenne de cette nouvelle variable X=kX est multipliée par la même constante :

4. La moyenne est le point des moindres carrés. De tous les indices de centralité u, la moyenne arithmétique x¯ est celui qui minimise la somme des écarts au carré. On le montre en annulant la dérivée de cette expression par rapport àu. Si l’on posef(u) =N

De par les propriétés des polynômes du second degré (la fonctionf en est un), on vérifie facilement qu’il s’agit bien d’un minimum def.

Représentations graphiques

La représentation graphique associée au tableau de distribution d’effectifs ou de fréquences d’une variable numérique discrète est le diagramme en bâtons. Dans cette représentation en deux axes :

– l’axe horizontal a un plein sens numérique (c’est une abscisse). On peut ajouter une flèche à droite à cet axe, car les modalités ne sont pas permutables. Les intervalles entre les modalités ont un sens numérique ;

– l’axe vertical permet de repérer les effectifs ou les fréquences par modalités.

Comme effectifs et fréquences sont simplement des changements d’échelles l’un pour l’autre, on peut représenter les deux sous la forme d’un seul graphique à deux axes verticaux, à gauche et à droite.

Fig. 1.4– Diagrammes en bâtons et en paliers (variable numérique discrète) La représentation graphique associée au tableau de distribution cumulée d’effec-tifs ou de fréquences pour une variable numérique discrète est un diagramme en

« paliers » ou la hauteur des paliers représente les effectifs et fréquences cumulés.

Les valeurs de la fonction F(x)représentent la fréquence des observations de va-leurs égales ou inférieures à la valeur x fixée. Il s’agit bien d’une fonction réelle au sens où lexest un nombre quelconque (même si les valeurs de la variable étu-diée sont entières). Par exemple, on peut écrire F(2.5) = F req(X 2.5) même si aucune valeur de X n’est décimale. On aura simplement F(2.5) = F req(X 2.5) =F req(X 2). Autrement dit, entre chaque valeur entière, la fonctionF est constante, ce qui justifie la représentation en paliers.

On indique par un point l’image de chaque valeur entière, pour résoudre l’ambi-guïté graphique qui semble affecter deux images à chaque modalité. A nouveau la modalité médiane peut être identifiée graphiquement en traçant un segment horizontal à hauteur de la fréquence cumulée 0.5 et en repérant le saut de palier rencontré. Si l’on tombe exactement sur un palier, on prend le milieu de ce palier comme valeur médiane.

Dans le document Psychologie statistique avec R (Page 26-32)