Statistiques Juin 2002

(1)

DEUG 2 – Juin 2002 – 3h LG413M - Mesure en Géographie

Cours de M. LAFFLY

1 document joint

crayon de couleurs et calculatrice nécessaires

On observe la répartition par commune de la région Aquitaine de la population, des naissances et des décès (données issues du RGP99). Le schéma fourni vous présente un extrait du tableaux pour 8 communes et deux graphes en nuages de points :

- le premier (en haut) croise les données brutes (dénombrement) de naissances (X) et de décès (Y). Figure également la droite de régression, son équation et le coefficient de détermination ;

- le second (en bas) croise les taux de natalité (X) et de décès (Y) par commune. On retrouve de même une droite de régression, son équation et le coefficient de détermination.

1. Comment expliquez-vous les différences observées entre les deux graphes qui croisent pourtant les mêmes informations sur les naissances et les décès à l’origine (RGP99) ? Quelles conclusions pouvez-vous en tirer quant aux données exprimées par dénombrement ou par taux ? Quel est à votre avis la meilleure solution à retenir ? 2. Réalisez un schéma théorique présentant en détail à quoi correspond un résidu sur un

graphe de régression (inspirez-vous d’un des schémas).

3. Sur le schéma du bas placez les bornes d’un seuillage en classes fondé sur une méthode dite de standardisation (estimez sur le graphe les valeurs à partir des axes).

Quelle gamme chromatique proposeriez-vous ? Commentez rapidement le schéma.

moy 0.00

min -9.69

max 47.55

ect 4.07

Stat. sur les résidus entre le taux de décès observés et le taux de décès estimés

4. À partir de vos résultats précédents estimez sur un graphe la répartition de la distribution de fréquences des résidus et reportez-y vos classes issues du seuillage précédent.

(2)

0 2 0 0 0 4 0 0 0 6 0 0 0 8 0 0 0 1 0 0 0 0 1 2 0 0 0 1 4 0 0 0 1 6 0 0 0 1 8 0 0 0 2 0 0 0 0

0 5 0 0 0 1 0 0 0 0 1 5 0 0 0 2 0 0 0 0 2 5 0 0 0

y = - 0 . 2 1 8 1 x + 1 1 . 7 9 6 R 2 = 0 . 0 1 8 6

0 1 0 2 0 3 0 4 0 5 0 6 0

0 5 1 0 1 5 2 0 2 5 3 0

D E P C O M N O M C O M P S D C 9 9 N A I S 9 9 % n a i s D E C E 9 9 % d é c

6 4 2 7 7 I s t u r i t s 3 6 4 2 3 6 1 3 3 3 7

3 3 1 6 9 F l o u d è s 1 1 6 3 3 2 8 4 3

6 4 5 2 9 S u s 3 8 7 9 3 2 4 2 3 6

6 4 1 4 5 B o u r d e t t e s 3 2 1 7 1 2 2 1 7 5 5 5

3 3 1 1 3 C a u v i g n a c 1 0 7 2 2 2 1 1 0 9

3 3 0 6 3 B o r d e a u x 2 1 4 6 3 3 2 4 0 5 4 1 1 1 8 4 2 9 9

6 4 4 4 5 P a u 7 8 7 1 5 8 7 1 1 1 1 7 1 0 9 9

3 3 2 8 1 M é r i g n a c 6 1 9 9 2 7 4 0 9 1 2 4 1 7 4 7

D E U G 2 - J u i n 2 0 0 2 - L G 4 1 3 M

M e s u r e s e n G é o g r a p h i e ( C o u r s d e M . L A F F L Y )

(3)

CORRECTION – 28/05/2002

1. Les deux graphes de corrélation présentent le croisement de variables démographiques relatives aux naissances (nombre de naissance et taux de natalité) et aux décès (nombre de décès et taux de mortalité). Ils sont pourtant très différents.

Le premier croise des masses d’individus, il est alors évident que plus la population est forte plus il y aura de décès et de naissance en valeur absolue et vice versa. Il s’agit d’un effet mécanique évident – d’où la très forte corrélation linéaire positive - qui masque en réalité l’essentiel de l’information démographique intéressante, à savoir les populations concernées sont-elles démographiquement « saine » (par exemple, assure-t-elle le renouvellement de la population ?).

Le second graphe permet d’apporter des éléments de réponse à cette question. Un taux relativise l’information par rapport à la masse totale de celle-ci par unité de comptage (les communes des Pyrénées Atlantiques ici). On peut alors observé des communes de petites tailles avec de forts taux de natalité et inversement. Alors que précédemment la masse initiale masquait l’essentiel de l’information nous avons ici une lecture détaillée des données.

Il est par conséquent évident que l’analyse des taux est à retenir.

2. Le résidu est une distance calculée entre la position observée et la position théorique calculée à partir du modèle retenue (ici linéaire de forme y’=ax+b). La variable estimée y est dite « dépendante » alors que celle qui sert au calcul x est dite « dépendante ». C’est-à-dire que pour un x donné on aura deux y, celui observé et celui calculé. Le résidu, dans le cas d’un ajustement linéaire, se calcule perpendiculairement à l’axe de la variable dépendante de manière à ce que la coordonnée x soit la même pour y et y’. Le schéma qui suit précise le détail de la signification des résidus.

(4)

-1 -0.5 0.5 1 1.5 2 2.5

-1 -0.5 0.5 1 1.5 2 2.5 3

Essone X = 2.96 Y’ = 2.16

Essone X = 2.96 Y = 1.08 Essone Res = -1.08 Seine et M arne

X = 2.61 Y = 2.39

Seine et Marne X = 2.61 Y’ = 1.9 Seine et Marne Res = 0.49

Amp.res=1.57

Y’ = 0.7412 * X - 0.0316 R² = 0.83

Position observée Position théorique

X = variable “explicative” ou indépendante Y = variable “à expliquer” ou dépendante

3. La méthode de discrétisation appelée « standardisation » consiste à définir des classes d’amplitude égale fondée sur l’écart-type et centrée sur la moyenne. On l’utilise généralement pour des distributions dites normales ou normales quelconques (coefficient d’asymétrie proche de 0). Ce n’est pas le cas ici puisque l’amplitude entre le minimum et la moyenne est de beaucoup inférieure à celle entre la moyenne et le maximum. Il s’agit en fait d’une distribution asymétrique à droite et eut été préférable de choisir une méthode de discrétisation dite « progression arithmétique » ou « progression géométrique ».

Quoi qu’il en soit nous appliquerons la discrétisation suivante

█ [min ; moy-15. ect[

█ [moy-1.5 ect ; moy-0.5 ect[

█ [moy-0.5 ect ; moy+0.5 ect[  classe centrale typique de la standardisation

█ [moy+0.5 ect ; moy+1.5 ect[

█ [moy+1.5 ect ; moy+3 ect[

█ [moy+3 ect ; moy+6 ect[

█ [moy+6 ect ;max]

La gamme chromatique choisie est une double gradation des couleurs froides et chaudes de manière à repecter le passage des valeurs négatives aux valeurs positives. La classe centrale est caractérisée par une couleur neutre assurant le passage des teintes froides aux teintes chaudes.

Le graphe suivant présente les classes positionnées selon la signification des résidus précisée plus haut.

(5)

y = - 0 . 2 1 8 1 x + 1 1 . 7 9 6 R 2 = 0 . 0 1 8 6

0 1 0 2 0 3 0 4 0 5 0 6 0

0 5 1 0 1 5 2 0 2 5 3 0

4. La distribution est fortement asymétrique à droite (cf. plus haut), d’où la forme de distribution suivante :