• Aucun résultat trouvé

Variable quantitative continue

Dans le document Psychologie statistique avec R (Page 32-37)

1.2 Structure de la mesure

1.2.4 Variable quantitative continue

Définition 1.16 (Variable continue)

Une variable est dite numérique continue si entre deux modalités quelconques de cette variable, il est toujours possible de trouver une autre modalité.

Toutes les mesures fondées sur des temps de réaction par exemple sont des mesures continues. En pratique, les variables continues sont toujoursdiscrétisée par artifice de mesure : l’âge est souvent enregistré en années seulement, la taille au centimètre près, le temps de réaction à la milliseconde près, etc. Il n’existe pas d’instrument de mesure de précision infinie et la propriété de continuité reste très théorique. Il est néanmoins important de la détecter même abstraitement, pour savoir choisir convenablement ce que nous appellerons plus tard des distributions théoriques dans la modélisation des données. La température corporelle par exemple est une variable numérique continue, entre 37.2 et 37.3 ; il est toujours possible d’observer d’autres valeurs de températures (37.25, 37.26...), à la précision du thermomètre près.

Distributions

Quand la variable est continue, la présentation des tableaux de distributions en modalités-effectifs (ou modalités-fréquences) est inadaptée car si la mesure est as-sez précise, les scores des sujets sont tous différents. La taille de quelqu’un n’est jamais exactement égale à celle de quelqu’un d’autre par exemple. Cela nous amè-nerait à construire un tableau où tous lesnk sont égaux à 1, tous lesfkégaux à N1, tous les Nk égaux àket les Fk égaux à Nk. Cela peut virtuellement faire un très grand tableau, qui ne synthétise pas les données (voir la représentation graphique de cette situation pour la mesure de la taille d’hommes et de femmes, fig. 1.5).

Fig. 1.5– Représentation inefficace en bâtons d’une distribution continue Dans ce cas, on procède à unregroupement en classesde valeurs. Dans l’exemple de la température corporelle, on peut décider de regrouper les valeurs observées dans des classesCk contiguës de largeur constante : C1= [36.6; 36.8[,C2= [36.8; 37.0[,

C3= [37.0; 37.2[,C4= [37.2; 37.4[,C5= [37.4; 37.6[, etc. Le nombre de classes est ainsi limité et il devient possible de repérer des classes de densité particulière.

On pourrait obtenir par exemple, en supposant les valeurs effectivement observées toutes incluses :

Ck C1 C2 C3 C4 C5

nk 150 300 200 75 25

fk 0.20 0.40 0.26 0.10 0.04

Nk 0 150 450 650 725 750

Fk 0 0.20 0.60 0.86 0.96 1

Les colonnes du tableau ne sont plus des valeurs mais des intervalles de valeurs.

Naturellement le choix de la largeur de classes est arbitraire et change l’allure de la distribution. Si l’on souhaite construire des représentations avec des largeurs de classes inégales, la représentation doit compenser pour cette inégalité qui permet virtuellement de réunir plus d’observations dans les classes larges. On adopte alors une représentation en densités de fréquence (voir section 4.5.3).

Résumés

Dans cette représentation, il n’y a pas a priori devaleur modale, mais une classe modale. Si les largeurs de classes sont égales, la classe modale est la classe d’effectif (ou de fréquence) le plus élevé. La classe modale est C2 ici.

Définition 1.17 (Mode)

On définit le moded’une variable continue comme le centre de la classe modale.

On peut noter qu’il n’y a pas en général devaleur médiane unique dans une dis-tribution empirique continue, même avant regroupement. Si l’on cherche à définir une médiane pour la série de températures 36.9, 37.2, 37.5 et 37.6, par exemple, on voit que n’importe quelle valeur comprise entre 37.2 et 37.5 respecterait la défini-tion (valeur séparant l’échantillon en deux parties égales). Strictement parlant, il y a donc en général unintervalle médian sur une série numérique continue (nombre pair d’observations) qui se réduit à une valeur dans le cas d’un nombre impair d’observations.

Définition 1.18 (Médiane)

Pour les variables continues, on définit par convention la valeur médiane comme le centre de l’intervalle médian.

Dans le cas des données regroupées en classes, on peut se contenter de repérer la classe médiane du regroupement, c’est-à-dire celui dont les bornes ont des cumuls encadrant la valeur 0.5 et calculer son milieu. Dans notre exemple, l’intervalle C2 = [36.8; 37.0[est médian et son milieu est 36.9. Il s’agit d’une approximation de la vraie médiane (inconnue) des données et cette approximation peut être très grossière.

On peut améliorer cette estimation en ne se contentant pas de prendre simplement le milieu de l’intervalle, mais en prenant en compte le fait que le cumul cherché 0.5 est plus proche du cumul à droite de la classe (0.6) que du cumul à gauche (0.2). Logiquement, nous devrions prendre une valeur de médiane plus proche de 37.0 que de 36.8 pour en tenir compte.

Nous ne savons pas comment se distribuent les observations à l’intérieur de la classeC2mais nous allons faire l’hypothèse que cette distribution est uniforme (la densité est la même en tout point de l’intervalle). Cette hypothèse se traduit par un cumul linéaire des effectifs dans la classe. On peut donc chercher la médiane parinterpolation linéaire, en posant qu’elle sera aussi proche de 37.0 que 0.5 l’est de 0.6, en proportion. On utilise une simple « règle de 3 ».

Fig. 1.6– Estimation de la médiane par interpolation linéaire Si aetbsont les bornes de la classe médiane, on chercheq˜1

2 tel que :

˜ q1

2 −a

b−a = 12−F(a) F(b)−F(a), c’est-à-dire :

˜ q1

2 =a+ 12−F(a)

F(b)−F(a)(b−a).

Sur notre exemple, on trouve :

˜ q1

2 = 36.8 + 0.50.2

0.60.2(37.036.8) = 36.95.

Le même calcul peut être réalisé en prenant les effectifs cumulésN(a)et N(b), et en cherchant le quantile associé à l’effectif théorique N2. Comme nous ne raisonnons que sur des proportions et que les effectifs cumulés ne diffèrent que d’un facteur multiplicatif des fréquences cumulées, le résultat ne s’en trouvera pas affecté :

˜ q1

2 = a+

N2 −N(a)

N(b)−N(a)(b−a)

= 36.8 + 375150

450150(3736.8) = 36.95.

Pour calculer la moyenne sur de telles données, on distingue deux cas de figure : – seules les données regroupées sont disponibles : on remplace alors chaque classe

par son centre, et on utilise sur ces données approximatives la formule pondérée de la moyenne arithmétique (formule 1.1) ;

– les données complètes (avant regroupement) sont disponibles : on calcule alors la moyenne arithmétique selon la formule classique.

Représentations graphiques

La représentation graphique de la distribution d’une variable continue regroupée en classes est le diagramme en bâtons larges. Les bâtons larges permettent de représenter la nature d’intervalle des données (fig. 1.7).

Fig. 1.7– Histogramme et diagramme cumulé (variable numérique continue) La représentation graphique de la fonction de répartition empirique tire parti de l’hypothèse d’uniformité dans chaque intervalle posée au paragraphe précédent.

On trace des bâtons aux bornes de classes, dont la hauteur représente le cumul en cette borne. Puis on relie ces bâtons entre eux. On dit qu’on fait ainsi une approximation linéaire par morceaux d’une fonction de répartition dont la « vraie » forme apparaîtrait différente si nous disposions de l’intégralité des données.

Découpage en intervalles inégaux

Il arrive parfois qu’on souhaite regrouper les données en intervalles de largeurs in-égales. Ce sera le cas si l’on s’attend à trouver peu d’observations dans les valeurs extrêmes et qu’on souhaite que chaque classe soit assez peuplée. On choisira dans ce cas d’avoir des intervalles plus larges aux extrémités qu’au centre. Sans cor-rection appropriée, une telle représentation introduit cependant un biais propre : une classe plus large a plus de chances de contenir plus d’observations. De façon analogue, la comparaison entre la population d’Ile-et-Vilaine et celle de l’Ile-de-France donnerait la faveur à cette dernière, juste parce que sa superficie est plus

importante. Il est usuel en géographie et en démographie d’utiliser des mesures de densité ou de taux (population, natalité) pour rendre ces comparaisons possibles.

De la même façon, on utilisera en statistique, lorsque les classes sur une variable numérique sont de largeurs inégales, une représentation où les fréquences fk sont divisées par les largeurs lk des classes correspondantes. On parle de densités de fréquences :

dk =fk lk

.

Cette construction et ses propriétés seront détaillées au chapitre 4 (section 4.5.3).

Indices de centralité et formes de distribution

Les relations qui s’établissent entre mode, médiane et moyenne d’une distribu-tion numérique sont fortement liées à l’allure symétrique ou dissymétrique de la distribution. La moyenne est en effet un indice de centralité (ou de résumé) très sensible aux valeurs extrêmes d’une distribution. L’ajout dans un échantillon d’une seule valeur très extrême provoque un brusque changement dans la valeur de la moyenne. La médiane n’est que très peu affectée par l’ajout d’une valeur extrême et le mode encore moins. Mode et médiane offrent donc en général un meilleur résumé d’une distribution quand elle est dissymétrique.

Fig. 1.8– Sensibilité des indices de centralité à la symétrie

Quand une distribution est dissymétrique à droite (on dit aussi étalée à gauche), on constate quex < q¯ 1

2 < M o. Symétriquement on aura en général M o < q1 2 <x¯ quand la distribution est dissymétrique à gauche (ou étalée à droite). Quand la symétrie est parfaite, on ax¯=q1

2 =M o.

D’une façon générale, le calcul d’un indice de centralité n’a de sens que si la distribution est unimodale : elle présente une forte densité d’observations dans une zone privilégiée et cette densité diminue au fur et à mesure que l’on s’éloigne de cette zone dense, à gauche comme à droite. Les exemples de la fig. 1.8 sont

des cas particuliers de distributions unimodales. Une distribution peut présenter plusieurs « bosses » ou modes relatifs (multimodalité). Il est clair que dans ces cas de figure, chercher à résumer la distribution par une valeur typique n’a guère de sens.

Dans le document Psychologie statistique avec R (Page 32-37)