• Aucun résultat trouvé

La Statistique Descriptive. Jacqueline SALIBA

N/A
N/A
Protected

Academic year: 2022

Partager "La Statistique Descriptive. Jacqueline SALIBA"

Copied!
35
0
0

Texte intégral

(1)

La Statistique Descriptive

Jacqueline SALIBA

Jacqueline.saliba@u-bordeaux.fr

(2)

Série statistique à deux

dimensions

(3)

Série statistique à deux dimensions

La représentation graphique des individus d’une série statistique à deux dimensions donne un nuage de points Mi de coordonnées {xi1, xi2}. Le centre de gravité G du nuage a pour coordonnées les moyennes et x1 x2

Représentation des données centrées : l’origine des axes est au centre de gravité

(4)

Covariance

Les variances des caractères expriment la dispersion des valeurs de

chaque série, la covariance qualifie la dispersion du nuage de points autour du centre de gravité dans l’espace à deux dimensions.

La covariance de deux caractères C1 et C2 s’écrit:

C’est la somme, pour les individus de la série, du produit des écarts à la moyenne des valeurs de chaque caractère prises par un même individu divisée par la taille de l’échantillon. La covariance peut être positive ou négative.

Remarque: La covariance d’un caractère et de lui-même, c’est-à-dire Cov(C1, C1), est égale à la variance de ce caractère Var(C1)

(5)

une covariance positive signifie que le nuage de points a tendance à être dispersé dans les quadrants I et/ou III du plan alors qu’une covariance négative traduit une

Cov > 0 Cov < 0 Cov = 0

En se plaçant dans le système des données centrées, la covariance mesure la somme du produit des composantes des vecteurs GMi divisé par la taille de

l’échantillon; c’est-à-dire la somme du produit terme à terme des éléments de deux colonnes de la matrice des données centrées divisée par la taille de l’échantillon

Covariance

G G G

(6)

Matrice de variance-covariance

Il est d’usage de représenter les paramètres de dispersion (variances et covariances) d’une série statistique à deux dimensions sous la forme d’une matrice de terme générale vkl, les indices k et l variant, ici, de 1 à 2

La matrice est une matrice carrée symétrique dont on obtient les valeurs par le produit de la matrice transposée de la matrice des données centrées et de la matrice des données centrées divisé par la taille de l’échantillon.

(7)

Par analogie, si l’on prend les séries élémentaires d’une série à p dimensions deux par deux, on définit une matrice des variances- covariances VC.

Matrice de variance-covariance

§ Cette matrice est carrée (p lignes et p colonnes) et symétrique.

§ Son terme général est vkl (les indices k et l varient, ici de 1 à p)

§ les termes de la diagonale sont les p variances et les termes non diagonaux sont les covariances des caractères pris deux par deux.

(8)

La somme des termes de la diagonale de la matrice des variances- covariances est appelé variance totale du nuage de points.

Elles est égale à la somme des p variances:

Matrice de variance-covariance

La variance totale est égale à la somme, prise par les p colonnes, de la somme des termes élevés au carré d’une colonne de la matrice des données centrées divisée par la taille de l’échantillon.

Il est également clair que la variance totale est égale à la somme prise, pour les N individus (lignes), des termes élevés au carré divisée par la taille de l’échantillon. (somme de tous les termes de la matrice des données

centrées élevés au carré divisée par la taille de l’échantillon)

Utilisant la distributivité de l’addition, la variance totale peut s’écrire:

(9)

Espace des variables

L’espace des individus a été présenté comme un espace à p dimensions où chaque ligne de la matrice des données est représenté par un vecteur.

Les termes d’une même colonne de la matrice sont portés par un même axe.

Par analogie, on définit un espace des variables ou encore un espace des caractères où chaque colonne de la matrice des données centrées est

représentée par un vecteur:

- Les termes d’une même ligne de la matrice sont portés par un même axe.

- Cet espace, d’origine Q, est à N dimensions.

- Il possède autant d’axes qu’il y a d’individus dans l’échantillon.

(10)

Espace des variables

10

Le vecteur QVj ayant pour composantes les termes de la colonne n°j de la matrice des données centrées divisés par est appelé le vecteur

représentant le caractère n°j, plus brièvement vecteur caractère.

Vecteur caractère dans l’espace des caractères

(11)

Série statistique à deux dimensions

La norme élevée au carré du vecteur s’écrit:

Cette norme élevée au carré est égale à la variance du caractère j.

L’espace des caractères est l’espace où se déploient les p vecteurs

caractères dont les normes respectives sont égale à la racine carrée des p variances;

En d’autres termes la longueur du vecteur caractère est égale à l’écart-type du caractère.

La variance totale d’une série statistique est donc égale à la somme des normes des vecteurs caractères dans l’espace des caractères.

QVj

(12)

Série statistique à deux dimensions

Remarques:

Les caractères dont les valeurs sont centrées et réduites ont des moyennes nulles et des variances égales à 1. Les vecteurs caractères sont donc, dans ce cas, tous représentés dans l’espace des caractères par des vecteurs de normes égale à 1 : leurs extrémités sont situées sur l’hypersphère de

l’espace à N dimensions de rayon 1.

L’espace des individus et l’espace des variables, respectivement à p et N dimensions sont des espaces vectoriels euclidiens. Les calculs de norme, d’angle entre vecteurs, d’angle entre un vecteur et un plan, les produits scalaires, etc., se font, en tenant compte de la dimension de l’espace, à l’identique de leur calcul dans un espace euclidien à 2 ou 3 dimensions.

(13)

Série statistique à deux dimensions

Exemple:

Le produit scalaire de deux vecteurs caractères d’une série statistique à deux dimensions s’écrit d’une part :

Et d’autres part :

(14)

Série statistique à deux dimensions

Ainsi, le cosinus de l’angle entre deux vecteurs caractères représentés dans l’espace des caractères est égal au rapport de la covariance de ces deux caractères et du produit de leurs écarts-type.

Selon que le cosinus de l’angle de deux vecteurs caractères est nul, égal à ±1 ou non nul, les vecteurs caractères sont orthogonaux entre eux, colinéaires ou

forment un angle entre eux.

(15)

Régression linéaire

La forme du nuage de points représentant une série statistique à deux

dimensions peut indiquer une éventuelle relation entre les deux caractères.

On se limite, ici, au cas d’une relation linéaire, c’est-à-dire au cas où les variations des valeurs prises par un caractère sont proportionnelles aux variations de l’autre.

Si des deux caractères, l’un semble expliquer l’autre, on écrit que leur relation peut être mise sous la forme d’une équation linéaire.

(16)

Régression linéaire

Soit C2 le caractère expliqué et C1 le caractère explicatif, la relation linéaire de C2 en C1 s’écrit:

Où l’on voit que les valeurs du deuxième caractère sont exprimées par la somme d’un terme proportionnel aux valeurs du premier caractère bxi1, d’une constante a et d’un terme d’erreur ei (écart des valeurs réelles à la stricte proportionnalité)

(17)

Régression linéaire

Le principe de la régression linéaire repose sur la minimisation de la somme du carré des termes ei. Le développement de l’équation découlant de ce

principe aboutit à l’équation de la régression linéaire des estimations de C2(x*) en C1:

et

Soit

Où x*i2 est la valeur prise par le caractère expliqué à l’issue de la régression linéaire. Le coefficient b, pente de la droite de régression, est appelé

coefficient de régression; il est généralement noté bx2, x1 et du signe de la

(18)

Régression linéaire

Exemple:

On veut étudier la relation entre les rayons (Ri) des plus petits cercles contenus dans des images de grains de sable vus en projection et des rayons (Rc) des plus grands cercles les contenant Ri = f(Rc).

Un échantillon de 103 grains a été étudié.

Les moyennes et variances respectives des deux paramètres sont:

1,27 mm, 2,40 mm, 0,058 mm2 et 0,272 mm2.

La covariance des deux caractères est égale à 0,056mm2

(19)

Régression linéaire

covariance des deux caractères 0,056mm2 > 0 : ce qui signifie que les points sont répartis dans les quadrants I et III du système d’axe des données centrées.

La pente de la droite de régression est égale à 0,205. =0.056/0.272 Le coefficient de corrélation est égale à 0,443.

= 0.056/V(0.272x0.058)

La corrélation est donc positive, c’est-à-dire que le caractère Ri croit lorsque le caractère Rc croît mais la relation est de mauvaise qualité (coefficient largement inférieur à 1).

Remarque: la régression du caractère C2 en C1 est différente de la régression du caractère C1 en C2. En effet, le coefficient de régression bx2,x1 n’est pas égale au coefficient bx ,x .

(20)

Régression linéaire

Exemple:

La figure suivante montre la droite de régression des rayons (Ri) des plus petits cercles et des rayons (Rc) des plus grands cercles les contenant.

Droite de régression

(21)

Variance résiduelle, variance expliquée et coefficient de corrélation simple

La dispersion des valeurs de la variable expliquée tient, d’une part à sa relation avec la variable explicative, d’autre part au terme d’erreur e.

Les écarts ei= xi2-x*i2 entre les valeurs observées du caractère expliqué et les valeurs calculées par la régression sont appelés les résidus de x2 par rapport à x1.

On appelle variance résiduelle la somme des carrés de ces écarts divisés par la taille de l’échantillon, on la note:

(22)

Variance résiduelle, variance expliquée et coefficient de corrélation simple

Le développement du terme de droite de cette expression donne:

Il apparaît ainsi que la variance résiduelle de C2 par rapport à C1 est égale à la variance de C2 diminuée d’une quantité positive ou nulle appelée

variance expliquée, c’est-à-dire la partie de la variance du caractère C2 due à sa relation au caractère C1.

Une réécriture de l’expression ci-dessus obtenue par une mise en facteur de Var(C2) donne:

On reconnaît dans cette expression le carré du cosinus de l’angle que forment les vecteurs caractères dans l’espace des caractères.

(23)

Variance résiduelle, variance expliquée et coefficient de corrélation simple

Les vecteurs caractères dans l’espace des caractères : la variance résiduelle

(24)

Variance résiduelle, variance expliquée et coefficient de corrélation simple

Il apparaît que la variance expliquée est égale à la norme élevée au carré de la projection du vecteur caractère C2 sur le vecteur caractère C1 (vecteur QH) et la variance résiduelle est représentée par le vecteur V2H:

Avec

(25)

Variance résiduelle, variance expliquée et coefficient de corrélation simple

La variance résiduelle est nulle lorsque le cosinus est égale à ±1, c’est-à- dire lorsque les vecteurs caractères sont colinéaires, c’est-à-dire encore lorsque leurs composantes sont proportionnelles.

La variance résiduelle est maximale lorsque le cosinus est égale à 0, c’est- à-dire lorsque les vecteurs caractères sont orthogonaux entre eux.

On appelle coefficient de corrélation, noté r, la valeur prise par le cosinus des vecteurs caractères dans l’espace des caractères.

Ce coefficient mesure la plus ou moins grande colinéarité des vecteurs

caractères ou ce qui revient au même, la plus ou moins bonne qualité de la régression.

(26)

Variance résiduelle, variance expliquée et coefficient de corrélation simple

Remarque:

Les coefficients de corrélation de C1 et C2 sont égaux. En effet, les deux caractères jouent un rôle symétrique étant présents au numérateur du coefficient par leur covariance et au dénominateur par leur variance.

L’écriture de l’équation de la régression d’un caractère en un autre ne préjuge rien de la qualité de cette relation ; il est toujours possible de calculer les coefficients de la droite de régression quelle que soit la

dispersion des points du nuage, dans l’espace des individus, de part et d’autre de cette droite.

La qualité de régression est d’autant meilleur que les points sont plus concentrés autour de la droite.

(27)

Exemple 1

Régression linéaire

xi 2,5 3 3,5 4 4,5 6,5

yi 12,5 12 11 9,5 8 7

Le tableau ci-dessous donne la demande d’un produit Y en fonction du prix X.

1) Calculer les moyennes xet y des deux variables X et Y.

2) Représenter graphiquement le nuage de points (xi ; yi) et placer le point moyen G (x ; y) dans un repère orthogonal.

3) a- Calculer les variances V(X) et V(Y) et la covariance Cov (X ; Y) b- Quel est le signe de la covariance et quel en est la signification.

c- Calculer le coefficient de corrélation linéaire et donner une interprétation à la valeur ainsi trouvée.

4) a- Déterminer une équation de la droite de régression (Dy/x) et la tracer dans le repère précédent.

b- On suppose que le modèle précédent reste valable lorsque le prix augmente. Donner une estimation de la demande pour un prix unitaire égale à 8 euros (le détail des calculs doit être présent).

c- Calculer, pour chacune des valeurs du tableau, leur résidu.

d- En quelle unité s’expriment les résidus ?

e-Matérialisez les résidus sur le graphique (expliquez votre démarche).

5) a- Déterminer une équation de la droite de régression (Dx/y) et la tracer dans le repère précédent.

(28)

Matrice des coefficients de corrélation

Considérant tous les couples de caractères d’une série statistique à p

dimensions, il est d’usage d’écrire l’ensemble des coefficients de corrélation sous la forme d’une matrice carrée et symétrique de rang p. Les termes

diagonaux rjj sont naturellement égaux à 1

La matrice des coefficients de corrélation d’une série statistique à p

dimensions est égale à la matrice des variances-covariances de la matrice des données centrées réduites de la même série statistique. Il suffit pour s’en convaincre de se souvenir que les données centrées réduites ont des variances égales à 1

(29)

Série multidimensionnelle

Régression multiple et variance résiduelle

Soit Cj le caractère expliqué et C1, C2, C3, …., Cj-1, Cj+1, …. Cp les caractères explicatifs, la relation linéaire de Cj en C1, … s’écrit:

Xij = b0 + b1xi1 +…+ bj-1xij-1 +….+ bj+1xij+1 +…+ bpxip + ei

Afin de simplifier la présentation, on place le caractère j à expliquer en première position par une simple permutation des colonnes de la matrice des données.

On cherche donc à exprimer la régression linéaire multiple du caractère C1 par les p-1 autres caractères. L’équation de la régression s’écrit alors:

Xi1= b1 + b2xi2 + b3xi3 +…+ bjxij +…+ bpxip + ei

(30)

Série multidimensionnelle

La matrice des variances covariances VC est partitionnée en quatre matrice

La première matrice (1 ligne, 1 colonne) v11 représente la variance du caractère à expliquer, la deuxième v12 ( 1ligne et p-1 colonnes) et la troisième V21 (1 colonne et p-1 lignes) contiennent les (p-1) covariances du caractère à expliquer et des (p-1) autres caractères et la quatrième matrice v22 (p-1 lignes et p-1 colonnes) est la

matrice carrée symétrique contenant les éléments de VC non encore utilisés.

(31)

Série multidimensionnelle

Les coefficients de régression b2, b3, …, bj, ….., bp organisés en une matrice

colonne sont obtenus par le produit de la matrice inverse de la matrice v22 et de la matrice v21

(32)

Série multidimensionnelle

Le terme constant de l’équation de la régression multiple b1 est obtenu par le calcul suivant:

La variance résiduelle s’écrit:

Corrélation multiple

Par analogie avec la définition du coefficient de corrélation simple, on tire

l’expression du carré du coefficient de corrélation multiple de l’expression de la variance résiduelle

(33)

Exemple 2

Les hauteurs de pluie tombée en deux sites différents mais proches, à l’occasion de divers épisodes pluvieux, sont données en millimètres tableau 1. Certains paramètres statistiques classiques sont donnés tableau 2.

1. Placez sur le graphique de la figure 1 le centre de gravité du nuage de point.

2. En considérant que la variable y (variable expliquée) est la hauteur de pluie au site 2, calculez le coefficient de régression linéaire de la hauteur de pluie au site 2 au regard de la hauteur de pluie au site 1.

3. Placez la droite de régression sur le graphique de la figure 1.

4. Calculez la hauteur de pluie prédite au site 2 si la hauteur de pluie au site 1 était égale à 1,40 mm.

5. Supposant, pour cette question, que la variable expliquée est la hauteur de pluie au site 1, quelle serait la hauteur de pluie prédite au site 1 si la hauteur de pluie au site 2 était égale à 1,13 mm. Il est particulièrement important que vous justifiez votre réponse pour cette question.

6. Existe-t-il un couple de valeurs pour lequel les prédictions dans un cas comme dans l’autre seraient égales ?

(34)

Site_1 Site_2

1,05 0,66

1,40 1,16

0,69 0,64

1,41 1,07

0,51 0,33

1,49 1,59

1,38 1,11

2,00 1,33

0,96 0,96

1,31 1,40

2,07 1,71

1,02 0,75

0,89 0,75

1,51 0,92

Site_1 Site_2 Moyenne 1,26 1,03

Variance 0,1853 0,1415 Ecart type 0,4304 0,3761 Covariance 0,1388

Corrélation 0,8574

(35)

0,00 0,50 1,00 1,50 2,00 2,50

0,00 0,50 1,00 1,50 2,00 2,50

h(Site 2)

h(Site 1 )

Références

Documents relatifs

Le stade de l’analyse statistique préliminaire de la fabrication a pour but de vérifier que la fabrication est sous contrôle ; il pose deux problèmes théoriques

Si oui, d´eterminer les coordonn´ees du point moyen et l’´equation de la droite de r´egression de y (les taux de pauvres) en x (les recettes publiques)..

L’ensemble des couples (X,Y) constitue une distribution à deux caractères, ou distribution à deux variables. Exemple : On considère la note en maths et en français de 12

Remarque : Dans le cas de données saisonnières (par exemple des données trimestrielles), on peut aussi calculer la moyenne annuelle de la variable et, ensuite, pour chaque

Calculer la covariance et le coefficient de corrélation puis déterminer l’équation de la droite de régression de

Pour résumer une série statistique, il faut choisir un indicateur de position : médiane ou moyenne, auquel on associe un indicateur de dispersion (écart interquartile ou

Voici Une Série statistique quantitative indiquant le nombre d’appels téléphoniques réalisés au moyen d’un GSM au cours d’une journée pour un échantillon de

Le terme général x ij d’une série statistique auquel on soustrait la moyenne x j engendre la matrice des données centrées DC... Matrice des