• Aucun résultat trouvé

Polycopiédecours S D M 3-É ou M 2-O Q L1É ou

N/A
N/A
Protected

Academic year: 2022

Partager "Polycopiédecours S D M 3-É ou M 2-O Q L1É ou"

Copied!
45
0
0

Texte intégral

(1)L1 É CONOMIE ou. AUTRES. Année 2018-2019. M ODULE 2 - O UTILS Q UANTITATIFS ou M ODULE 3 - É CONOMIE. S TATISTIQUES D ESCRIPTIVES Polycopié de cours. Julie Scholler.

(2)

(3) Table des matières Chapitre 1 - Statistiques à une variable. 1.1. 1.2. 1.3. 1.4. 1.5. 1.6. Descriptions des données . . . . . . . . . . . . . . . . 1.1.1 Données brutes . . . . . . . . . . . . . . . . . 1.1.2 Un peu de vocabulaire . . . . . . . . . . . . . Tableaux synthétiques . . . . . . . . . . . . . . . . . 1.2.1 Tableau d’effectifs . . . . . . . . . . . . . . . 1.2.2 Tableau de fréquences . . . . . . . . . . . . . Représentations graphiques . . . . . . . . . . . . . . 1.3.1 Diagramme à secteurs circulaires . . . . . . . 1.3.2 Diagramme en barres ou en bâtons . . . . . . 1.3.3 Histogramme . . . . . . . . . . . . . . . . . . Indicateur de tendance centrale . . . . . . . . . . . . 1.4.1 Le(s) mode(s) . . . . . . . . . . . . . . . . . . 1.4.2 La moyenne . . . . . . . . . . . . . . . . . . . 1.4.3 La médiane . . . . . . . . . . . . . . . . . . . 1.4.4 Les quantiles . . . . . . . . . . . . . . . . . . Paramètres de dispersion . . . . . . . . . . . . . . . 1.5.1 Étendue . . . . . . . . . . . . . . . . . . . . . 1.5.2 Écart interquartile et diagramme en boite . . 1.5.3 Variance et écart type . . . . . . . . . . . . . 1.5.4 Autres indicateurs . . . . . . . . . . . . . . . Indicateur de concentration . . . . . . . . . . . . . . 1.6.1 Exemple . . . . . . . . . . . . . . . . . . . . . 1.6.2 Masse . . . . . . . . . . . . . . . . . . . . . . 1.6.3 Médiale . . . . . . . . . . . . . . . . . . . . . 1.6.4 Courbe de concentration . . . . . . . . . . . . 1.6.5 Interprétation de la courbe de concentration . 1.6.6 Indice de Gini . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3 3 3 4 5 5 6 7 7 7 8 11 11 12 13 15 16 16 16 17 20 20 20 21 22 22 23 24. . . . . . . . . . . . . . . . . . . . . . marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. 27 27 27 28 28 29 31 31 32 33 34 34 35 37 40 41. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. Chapitre 2 - Statistiques bivariées. 2.1 2.2 2.3. 2.4. 2.5. Exemple introductif avec deux variables qualitatives . Notations . . . . . . . . . . . . . . . . . . . . . . . . . Distributions . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Distribution jointe ou conjointe et distributions 2.3.2 Distributions conditionnelles . . . . . . . . . . Cas où au moins une variable est quantitative . . . . . 2.4.1 Caractéristiques marginales . . . . . . . . . . . 2.4.2 Caractéristiques conditionnelles . . . . . . . . . 2.4.3 Analyse de variance . . . . . . . . . . . . . . . Étude du lien de deux variables quantitatives . . . . . 2.5.1 Représentation graphique . . . . . . . . . . . . 2.5.2 Quantification du lien . . . . . . . . . . . . . . 2.5.3 Ajustement linéaire . . . . . . . . . . . . . . . . 2.5.4 Faire une régression linéaire ou pas ? . . . . . . 2.5.5 Exemple de régression non linéaire . . . . . . .. 1.

(4) TABLE DES MATIÈRES. 2.

(5) Chapitre 1. Statistiques à une variable 1. Descriptions des données 1.1. Données brutes. Basons nous sur un exemple factice pour présenter les notions qui vont être étudiées. Il s’agit d’une enquête réalisée auprès de 807 adultes. Les résultats sont présentés partiellement dans le tableau ci-dessous qui précise pour chaque individu : • le genre ; • le nombre de personnes constituant le foyer ; • le diplôme ; • la durée quotidienne moyenne passée devant la télévision. Numéro. Genre. Foyers. Diplôme. Durée TV. 1. F. 2. Bac. 102. 2. H. 3. Aucun Diplôme. 155. 3. H. 2. Sup Bac+2. 144. 4. F. 1. Bac+2. 132. 5. F. 3. Bac+2. 111. 6. F. 1. Aucun Diplôme. 144. 7. F. 4. Bac. 120. 8. F. 2. Bac+2. 119. 9. H. 3. Aucun Diplôme. 143. 10 .. .. H .. .. 1 .. .. Sup Bac+2 .. .. 139 .. .. 807. H. 1. Bac+2. 122. On • • • • •. peut se poser plusieurs questions lorsque l’on observe ces données. Comment organiser les résultats pour avoir une lecture synthétique ? Quelle est la proportion de femmes ? Quelle est la moyenne des durées passées devant la TV ? Comment se répartissent les durées passées devant la TV ? Peut-on considérer que la moyenne de durée pour cet échantillon est la même pour l’ensemble de la population des enfants de 7 ans francophone ? • Les moyennes de durées sont-elles les mêmes entre hommes et femmes ? • Les temps passées devant la TV dépendent-elles du type de foyer ? 3.

(6) CHAPITRE 1. STATISTIQUES À UNE VARIABLE 1.2. Un peu de vocabulaire. Avant de commencer, précisons un peu de vocabulaire couramment utilisé en statistique. Définition.. Population : ensemble concerné par une étude statistique. Individu : tout élément de la population étudiée. Échantillon : sous-ensemble de la population toute entière. Taille de la population : nombre d’individus dans la population. Variable : caractéristique définie sur la population et observée sur la population ou un échantillon, appelée aussi caractère. Modalités d’une variable : valeurs que peut prendre la variable. Données : ensemble des individus observés, ensemble des variables considérées, ainsi que les valeurs de ces variables pour ces individus. En début d’étude statistique, on se pose les questions suivantes. • Quelle est la population étudiée ? On précise alors la taille de l’échantillon/population. • Quel(s) est (sont) le(s) caractère(s) ou variable(s) étudiée(s) ? Quel est le type de chaque caractère ou variable ? Remarque.. La première question n’est pas toujours évidente, lorsque la population étudiée est elle-même numérique, comme par exemple une fréquence d’apparition, ou fréquentation.Pour nous aider à déterminer la population, on peut se demander la taille de celle-ci. Dans l’exemple, on a la situation suivante. • La population est directement définie dans l’énoncé : 807 adultes. • Les variables sont citées dans l’énoncé : genre, nombre de personnes dans le foyer, diplôme et durée devant la télévision. Ces variables sont de différents types. Définition.. Une variable est dite quantitative si ses modalités sont mesurables, numériques. On parle de variable quantitative discrète si les modalités éventuelles sont en nombre fini et de variable quantitative continue si les modalités éventuelles ne sont pas en nombre fini, par exemple si elles peuvent prendre n’importe quelle valeur dans un intervalle donné.. Définition.. Une variable est dite qualitative si elle n’est pas quantitative. On parle de variable qualitative ordinale si ses modalités sont ordonnées et de variable qualitative nominale si ses modalités ne peuvent pas être ordonnées. Ici on a les types de variables suivants. • Le genre est une variable qualitative nominale. • Le nombre de personnes dans le foyer est une une variable quantitative qui ne peut prendre que des valeurs entières, elle est donc quantitative discrète. • Le diplôme est une variable qualitative ordinale. 4.

(7) CHAPITRE 1. STATISTIQUES À UNE VARIABLE • La durée devant la télévision est une variable quantitative. Les résultats sont exprimés en minutes mais toutes les valeurs de l’intervalle [0; 1440[ sont possibles (bien qu’on choisisse d’arrondir les résultats à la minute). Elle est donc quantitative continue. 2. Tableaux synthétiques. Un premier travail pour chaque variable consiste à regrouper les données brutes par modalités. 2.1. Tableau d'effectifs Variables qualitatives ou quantitatives discrètes. Après un travail de comptage automatique informatique, on obtient ce type de tableau : • Pour la variable Genre : Genre. F. H. Effectifs. 407. 400. • Pour la variable diplôme : Diplôme. Aucun Diplôme. Brevet. CAP,BEP. Bac. Bac+2. Sup Bac+2. Effectifs. 209. 44. 206. 151. 90. 107. • Pour la variable Foyer : Foyer. 1. 2. 3. 4. 5. Effectifs. 277. 263. 118. 94. 55. Variable quantitative continue. On peut faire le même type de tableau mais il est peu lisible.. Durées. 97. Effectifs. 1. Durées. 116. Effectifs. 13. Durées. 133. Effectifs. 25. ! x u e i c i d u j Non. Durées Effectifs. 99. 101. 102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115. 2. 4. 5. 3. 1. 4. 2. 6. 6. 3. 5. 11. 8. 12. 8. 16. 117. 118. 119. 120. 121. 122. 123. 124. 125. 126. 127. 128. 129. 130. 131. 132. 9. 7. 10. 23. 18. 9. 17. 21. 21. 19. 22. 21. 22. 17. 20. 20. 134. 135. 136. 137. 138. 139. 140. 141. 142. 143. 144. 145. 146. 147. 148. 149. 17. 15. 29. 20. 27. 17. 16. 21. 24. 15. 13. 18. 15. 14. 18. 13. 150. 151. 152. 153. 154. 155. 156. 157. 158. 159. 160. 161. 164. 166. 167. 168. 171. 10. 14. 11. 9. 10. 2. 4. 10. 6. 6. 6. 5. 5. 2. 1. 2. 1. Dans ce cas, il est intéressant de regrouper les valeurs dans des classes. On a par exemple ce tableau :. Durées. [95; 100[. [100; 105[. [105; 110[. [110; 115[. [115; 120[. [120; 125[. [125; 130[. [130; 135[. Effectifs. 3. 13. 21. 44. 55. 88. 105. 99. Durées. [135; 140[. [140; 145[. [145; 150[. [150; 155[. [155; 160[. [160; 165[. [165; 170[. [170; 175[. Effectifs 108. 89. 78. 54. 28. 16. 5. 1. 5.

(8) CHAPITRE 1. STATISTIQUES À UNE VARIABLE Notations. De façon générale, on note : • n la taille de l’échantillon ; • xi la valeur de la variable pour l’individu no i (i variant de 1 à n). Dans le cas où la variable est quantitative discrète ou qualitative, on note : • M le nombre de modalités différentes ; • m1 , . . . , mM les modalités ; • ni le nombre d’individus prenant la modalité mi , pour tout i entre 1 et M . Dans le cas où la variable est quantitative continue (regroupée en classe), on note : • C le nombre de classes différentes ; • b0 < b1 < . . . < bC : les bornes des classes avec b0 6 mini∈J1,M K (mi ) et br > maxi∈J1,M K (mi ) ;. • [b0 , b1 [, [b1 , b2 [, . . ., [bC−1 , bC ] : les classes de modalité ;. • nk : nombre d’individus dont la modalité est dans la k e classe. On remarque que n = n1 + n2 + · · · + nM =. M X. ni ou n = n1 + n2 + · · · + nC =. i=1. C X. ni .. i=1. Remarque.. Dans la pratique, on utilise toujours les données brutes pour effectuer l’ensemble des calculs via un logiciel de statistiques. Les tableaux synthétiques permettent de présenter les résultats, mais à partir de ces seuls tableaux, on ne peut observer les liens qui peuvent exister entre les variables. 2.2. Tableau de fréquences. J’utiliserai fréquence au sens de fréquence relative, et non de fréquence absolue qui correspond à l’effectif. Souvent dans les tableaux synthétiques, on présente aussi les fréquences : Définition.. La fréquence fi d’une modalité mi est donnée par la relation : fi =. ni n. où ni est l’effectif de la modalité mi et n la taille de la population. Pour des raisons de facilité de lecture, les fréquences sont souvent présentées en pourcentage.. On remarque que. M X. fi = 1.. i=1. Exemple.. • Pour la variable Genre : Genre. F. H. Effectifs. 407. 400. Fréquences. 0.504. 0.496. • Pour la variable Diplôme : 6.

(9) CHAPITRE 1. STATISTIQUES À UNE VARIABLE. Diplôme. Aucun Diplôme. Brevet. CAP,BEP. Bac. Bac+2. Sup Bac+2. Effectifs. 209. 44. 206. 151. 90. 107. Fréquences (%). 25.9. 5.5. 25.5. 18.7. 11.2. 13.3. 3. Représentations graphiques 3.1. Diagramme à secteurs circulaires. Dans l’absolu, il peut être construit pour tous les types de variables. Il permet d’observer les fréquences de chaque modalités. Dans ce type de graphique, les angles (et la surface du secteur) sont proportionnels aux fréquences. Les angles en degré sont obtenus en multipliant par 360 les fréquences ou par 3.6 les fréquences en %. Exemple.. Toujours pour la variable diplôme : Diplôme. Aucun Diplôme. Brevet. CAP,BEP. Bac. Bac+2. Sup Bac+2. Effectifs. 209. 44. 206. 151. 90. 107. Fréquences en pourcentage. 0.259. 0.055. 0.255. 0.187. 0.112. 0.133. Angle. 93. 20. 92. 67. 40. 48. répartion Brevet 5 % Aucun Diplôme 26 % CAP,BEP 26 %. Sup Bac+2 13 % Bac 19 %. Bac+2 11 %. Bien que très répandus, je vous déconseille ce type de graphique car l’information y est plus difficile d’accès que dans un diagramme en bâtons. 3.2. Diagramme en barres ou en bâtons. Le diagramme en bâtons est adapté pour les variables quantitatives discrètes et les variables qualitatives en particulier ordinales. La hauteur des barres ou des bâtons est alors proportionnelle à l’effectif (et à la fréquence). Voici deux exemples : • Pour la variable diplôme : 7.

(10) CHAPITRE 1. STATISTIQUES À UNE VARIABLE. Répartition de la population selon le diplôme 200. Effectifs. 150. 100. 50. 0 Aucun Diplôme. Brevet. CAP,BEP. Bac. Bac+2. Sup Bac+2. • Pour la variable foyer :. Répartition du nombre de personnes par foyer. 250. Effectifs. 200 150 100 50 0 1. 2. 3. 4. 5. Remarque.. Les « barres » peuvent être élargies pour une meilleure lisibilité. De plus ce type de graphique ne nécessite pas une origine, on choisit les valeurs min et max de l’axe des abscisses qui permettent d’avoir la meilleure lisibilité. 3.3. Histogramme. Il est utilisé pour représenter les variables quantitatives continues, en regroupant les données par classe. Classes ayant la même amplitude. Il s’agit du cas le plus fréquent, utilisé par défaut par les logiciels de statistiques. Si on reprend l’exemple des durées des 807 adultes, en regroupant par des classes d’amplitude 10 : Durées [90; 100[ [100; 110[ [110; 120[ [120; 130[ [130; 140[ [140; 150[ [150; 160[ [160; 170[ [170; 180[ Effectifs. 3. 34. 99. 193. 207 8. 167. 82. 21. 1.

(11) CHAPITRE 1. STATISTIQUES À UNE VARIABLE On obtient l’histogramme suivant : 250. Effectifs. 200 150 100 50 0 90. 100. 110. 120. 130. 140. 150. 160. 170. 180. Durée Le principe de l’histogramme est de représenter la fréquence ou l’effectif par des rectangles dont la base est constituée par les classes positionnées en abscisse. Si les classes ont même amplitude la surface de chaque rectangle est aussi proportionnelle à la hauteur. Deux questions se posent. 1. Combien de classes sont nécessaires ? 2. Quel choix doit être fait pour les bornes ?. 100. 120. 140. 160. 180. Durées. 0. 50. 100 150 200 250 300. Effectifs. 60 0. 0. 20. 40. Effectifs. 30 20 10. Effectifs. 80. 40. 100. 50. En effet voici 3 exemples où l’on fait varier l’amplitude.. 100. 120. 140. 160. 180. 100. Durées. 120. 140. 160. 180. Durées. Quelques remarques sur ces 3 histogrammes : • avec une amplitude de 2, l’histogramme perd en lisibilité, il y a des « cassures » entre certaines classes ; • le second histogramme comporte 11 classes d’amplitude 5. Il s’agit de celui obtenu par défaut par le logiciel de statistiques R, qui calcule le nombre de classe avec la formule de Sturges (1 + 3.332 log10 n) ; • le troisième graphique montre de trop grandes variations entre les classes. Remarque.. En regardant les axes des ordonnées on observe des changements d’échelles. En effet en élargissant les amplitudes pour une même hauteur on obtient une surface plus grande et donc un effectifs plus important. Il ne faut pas oublier que ce sont les surfaces des rectangles qui correspondent à l’effectif ! 9.

(12) CHAPITRE 1. STATISTIQUES À UNE VARIABLE Classes ayant des amplitudes différentes. Il peut s’avérer nécessaire de segmenter plus finement une population, et de construire des classes d’amplitudes différentes. Dans ce cas, l’histogramme ne peut plus être construit de la même façon si on souhaite que les rectangles restent proportionnels aux effectifs et fréquences. On rappelle les notations suivantes : • C le nombre de classes différentes ; • b0 < b1 < . . . < bC les bornes des classes avec b0 6 mini∈J1,M K (mi ) et br > maxi∈J1,M K (mi ) ;. • [b0 , b1 [, [b1 , b2 [, . . ., [bC−1 , bC ] : les classes de modalité ;. • nk : nombre d’individus dont la modalité est dans la k e classe. Pour calculer la hauteur des rectangles correspondant à chaque classe, il faut tenir compte de l’amplitude (largeur) de chaque classe. On note ak = bk − bk−1 l’amplitude de la k e classe. Pour chaque classe on détermine la densité de fréquence di définie par : di =. fi ai. di nous donnera la hauteur de chaque « rectangle ». Appliquons avec ces valeurs : Durées. [95; 100[. [100; 105[. [105; 110[. [110; 115[. [115; 120[. [120; 130[. [130; 140[. Effectifs ni. 3. 13. 21. 44. 55. 193. 207. Fréquences fi. 0.00372. 0.01611. 0.02602. 0.05452. 0.06815. 0.23916. 0.25651. Densités di. 0.00074. 0.00322. 0.00520. 0.01090. 0.01363. 0.02392. 0.02565. Durées. [140; 145[. [145; 150[. [150; 155[. [155; 160[. [160; 165[. [165; 170[. [170; 175[. Effectifs ni. 89. 78. 54. 28. 16. 5. 1. Fréquences fi. 0.11029. 0.09665. 0.06691. 0.03470. 0.01983. 0.00620. 0.00124. Densités di. 0.02206. 0.01933. 0.01338. 0.00694. 0.00397. 0.00124. 0.00025. 0.030. 0.025. 0.025. 0.020. 0.020 Densités. Densités. 0.030. 0.015. 0.015. 0.010. 0.010. 0.005. 0.005. 0.000. 0.000 100. 120. 140. 160. 180. 100. Durées. 120. 140 Durées. 10. 160. 180.

(13) CHAPITRE 1. STATISTIQUES À UNE VARIABLE 4. Indicateur de tendance centrale. On souhaite comparer deux groupes extraits de l’enquête : • groupe 1 : les hommes célibataires sans diplôme ; • groupe 2 : les femmes.. 100. 120. 140. 160. 0.00 0.01 0.02 0.03 0.04 0.05. Densités. 0.00 0.01 0.02 0.03 0.04 0.05. Densités. On construit les histogrammes avec la même échelle en utilisant la densité :. 180. 100. 120. Durée TV. 140. 160. 180. Durée TV. On observe en particulier deux faits : • l’histogramme du groupe 2 est décalé sur la gauche par rapport au groupe 1, la durée devant la télévision est globalement plus courte pour le groupe 2, les groupes ne se « positionnent » pas au même « endroit », • l’histogramme du groupe 1 est moins étalé que celui du groupe 2 : les résultats du groupe 1 sont moins dispersés que ceux du groupe 2. Il est nécessaire de pouvoir quantifier ces différences. Le premier point va faire appel à des indicateurs dits de position ou de tendance centrale. Le deuxième point correspond à des indicateurs de dispersion. 4.1. Le(s) mode(s) Définition.. Le ou les mode(s) sont les valeurs les plus fréquentes dans la distribution des variables. Par exemple, pour la variable Diplôme, le mode est « CAP, BEP ». Pour la variable Foyer, le mode est 5. Diplôme. Aucun Diplôme. Brevet. CAP,BEP. Bac. Bac+2. Sup Bac+2. Effectifs. 209. 44. 206. 151. 90. 107. Foyer. 1. 2. 3. 4. 5. Effectifs. 277. 263. 118. 94. 55. Remarque.. • Le mode n’est pas nécessairement unique. • Si les données sont regroupées en classe, on parle de classe modale. La classe modale n’est pas le classe ayant l’effectif ou la fréquence la plus élevée mais celle ayant la densité de fréquence ou d’effectif la plus élevée. 11.

(14) CHAPITRE 1. STATISTIQUES À UNE VARIABLE 4.2. La moyenne. Définition.. La moyenne, notée x, d’une variable quantitative est définie par : n 1X x= xi n i=1. où n est la taille de la population et xi les valeurs prises par les n individus. Lorsque les données sont regroupées dans un tableau d’effectifs pour une variable discrète, on utilise la formule suivante : M 1X x= nk mk n k=1 où M est le nombre de modalités différentes, mi la valeur de la ie modalité et ni le nombre d’individus prenant pour valeur la ie modalité. Lorsque l’on souhaite calculer la moyenne d’une variable quantitative continue et que l’on ne dispose que d’un tableau d’effectif, on ne peut faire qu’un calcul approché de la moyenne. bk + bk+1 On définit le centre de la classe [bk ; bk+1 [ par ck = . Et en faisant l’hypothèse que les valeurs sont 2 réparties symétriquement autour du centre classe, on a x'. M 1X nk ck n k=1. Exemple.. Calculons la moyenne des durées pour le groupe 1 (hommes célibataires sans diplôme) qui contient 36 individus. Voici les données extraites pour le groupe 1 : 115. 124. 131. 132. 135. 135. 136. 139. 139. 141. 141. 145. 145. 146. 147. 148. 149. 149. 150. 150. 150. 151. 151. 151. 152. 154. 154. 156. 157. 157. 158. 164. 166. 166. 168. 171. On utilise la formule sur les données brutes : 36 X. xi = 115 + 135 + 139 + · · · + 171 = 5324 et on a x =. i=1. 5323 ' 147.8611 ' 148 36. Lorsque l’on dispose uniquement du tableau avec les données regroupées en classes, on utilise les centres de classe : Classes. [110, 120[. [120, 130[. [130, 140[. [140, 150[. [150, 160[. [160, 170[. [170, 180[. Effectifs (ni ). 1. 1. 7. 9. 13. 4. 1. Centres de classe (ci ). 115. 125. 135. 145. 155. 165. 175. n i ci. 115. 125. 945. 1305. 2015. 660. 175. On obtient donc : 1 1 x' (1 × 115 + 1 × 125 + 7 × 135 . . . + 1 × 175) ' × 5340 ' 148.33 ' 148 36 36 On remarque que les valeurs sont proches mais elles ne sont pas égales. Il faut privilégier la première méthode lorsque l’on a les données brutes. 12.

(15) CHAPITRE 1. STATISTIQUES À UNE VARIABLE Proposition.. • La somme des écarts des observations à la moyenne (xi − x) est nulle : n X. (xi − x) = 0. i=1. • La moyenne d’une somme de caractères est la somme des moyennes de ces caractères. • La somme des carrés des écarts des observations à la moyenne est inférieure à la somme des carrés des écarts par rapport à toute autre valeur.. 4.3. La médiane Définition.. La médiane est une valeur qui partage la population de telle façon que la moitié de la population possédé une valeur du caractère inférieure à la médiane, l’autre moitié supérieure. Pour déterminer la médiane, on distingue deux cas de figures. 1. On possède les données brutes (que la variable soit  discrète ou continue), on ordonne les valeurs et :  n+1 e valeur de la série ; • si l’effectif est impair, la médiane est la 2 e  ne n + 1 valeur (ou la première de ces deux • si l’effectif est pair, on prend la moyenne de la et 2 2 valeurs). 2. Pour une variable quantitative dont on ne possède que le tableau des effectifs par classe, on doit calculer les fréquences cumulées et effectuer une interpolation linéaire (voir exemple). Exemple.. Reprenons l’exemple des durées devant la télévision pour le groupe 1 : 115. 124. 131. 132. 135. 135. 136. 139. 139. 141. 141. 145. 145. 146. 147. 148. 149. 149. 150. 150. 150. 151. 151. 151. 152. 154. 154. 156. 157. 157. 158. 164. 166. 166. 168. 171. La taille de la population est de 36, la médiane doit partager la population en deux groupes de 18. La 18e valeur est 149 et la 19e est 150 ainsi : 149 + 150 Me = = 149.5 ou M e = 149 2 Supposons que la dernière valeur 171 soit aberrante et que nous l’excluons de la population. Il reste alors 35 valeurs on choisit alors la 18e valeur 149, et il y a 17 valeurs inférieures et 17 supérieures. Exemple.. Reprenons le cas de la variable foyer : Foyer. 1. 2. 3. 4. 5. Effectifs. 277. 263. 118. 94. 55. Fréquences. 0.343. 0.326. 0.146. 0.116. 0.068. Fréq. Cum.. 0.343. 0.669. 0.815. 0.932. 1. 13.

(16) CHAPITRE 1. STATISTIQUES À UNE VARIABLE La médiane est 2 car plus de la moitié de la population prend une valeur inférieure ou égale à 2 et plus de la moitié de la population prend une valeur supérieure ou égale à 2. On peut également lire la valeur de la médiane sur la représentation graphique des fréquences cumulées.. 0.6 0.4 0.2. 0.75 0.50. 0.8. 0.25. Fréquences cumulées. 1.0. 0.0. Q1 1. Me 2. Q3 3. 4. 5. Taille des Foyers. Exemple.. Étudions maintenant le groupe 2. Et utilisons le tableau des effectifs par classe, on calcule alors les fréquences et les fréquences cumulées et on obtient le tableau suivant : Classes. [90, 100[. [100, 110[. [110, 120[. [120, 130[. [130, 140[. [140, 150[. [150, 160[. [160, 170[. Effectifs (ni ). 3. 33. 86. 128. 97. 47. 12. 1. Fréquences (fi ). 0.0074. 0.0811. 0.2113. 0.3145. 0.2383. 0.1155. 0.0295. 0.0025. Fréquences cumulées (Fi ). 0.0074. 0.0885. 0.2998. 0.6143. 0.8526. 0.9681. 0.9976. 1.0001. À partir de celui-ci on trace la courbe cumulative :. Fréquences cumulées. 1.0 0.8 0.6 0.4 0.2 Me. 0.0 90. 100 110 120 130 140 150 160 170 180 Durée en min. 14.

(17) CHAPITRE 1. STATISTIQUES À UNE VARIABLE La lecture graphique, nous permet d’établir que M e ' 125. On peut aussi la déterminer par le calcul en faisant une interpolation linéaire. On repère tout d’abord l’intervalle dans lequel se trouve la médiane ici [240, 300[ Bornes. 120. Me. 130. Fréq. cum.. 0.2998. 0.5. 0.6143. On considérant la proportionnalité des accroissements, on a : M e − 120 0.5 − 0.2998 = 130 − 120 0.6143 − 0.2998 0.2002 M e − 120 = 10 × 0.3145 M e − 120 ' 6.37 M e ' 120 + 6.37 M e ' 126 Dans la pratique, on travaillera avec des données brutes donc on appliquera la première méthode, mais il est intéressant d’avoir en tête la représentation du diagramme des fréquences cumulées. 4.4. Les quantiles. La médiane est un quantile particulier celui qui correspond au partage de la population en deux. On peut définir les quantiles qui partage la population en 4 : les quartiles qui sont associés au seuil 25%, 50% et 75%. On définit aussi les déciles par tranche de 10%. Définition.. Pour tout α dans [0; 1], le quantile en α est le plus petit réel, noté xα , tel qu’une proportion α des valeurs de la variable lui soient inférieures. On appelle quantiles d’ordre q les (q − 1) valeurs qui divisent les valeurs (ordonnées) de la série en q parties égales.. Remarque.. • On appelle quartiles les quantiles d’ordre 4 qui correspondent aux quantiles en 0.25, 0.5 et 0.75. Ils sont notés Q1 , Q2 et Q3 . Q2 correspond à la médiane. • On appelle déciles les quantiles d’ordre 10 qui correspondent aux quantiles en 0.1, 0.2, . . . , 0.9. • On appelle centiles les quantiles d’ordre 100 qui correspondent aux quantiles en 0.01, 0.02, . . . , 0.99. Exemple.. Reprenons l’exemple précédent du groupe 1 en supprimant la dernière valeur. 115. 124. 131. 132. 135. 135. 136. 139. 139. 141. 141. 145. 145. 146. 147. 148. 149. 149. 150. 150. 150. 151. 151. 151. 152. 154. 154. 156. 157. 157. 158. 164. 166. 166. 168. On veut déterminer le premier quartile Q1 , i.e. le quantile en 0.25. On doit avoir 0.25 × 35 = 8.75 valeurs inférieures à Q1 , on choisit donc la 9e qui sera la plus petite valeur tel qu’au moins 25% aient une valeur inférieure : Q1 =139. De même le 3e quartile doit avoir 35 × 0.75 = 26.25 valeurs inférieures, Q3 , correspond à la 27e valeur soit 154. 15.

(18) CHAPITRE 1. STATISTIQUES À UNE VARIABLE On peut aussi déterminer les quantiles par lecture graphique sur le diagramme des fréquences cumulées croissantes pour le groupe 2 :. 0.75. 0.8 0.6 0.4 0.2. 0.25. Fréquences Cumulées. 1.0. 0.0 90 100. Q1 120. Q3 140. 160. 180. Durée en min. 5. Paramètres de dispersion. Nous avons pu constater que les moyenne et médiane permettent de positionner les séries statistiques. Maintenant il nous faut quantifier la manière dont les valeurs sont dispersées autours de la moyenne ou de la médiane. 5.1. Étendue. Définition.. On appelle étendue l’écart entre la plus grande et la plus petite valeur de la série de données. Cette valeur est facile à calculer mais elle est très sensible aux valeurs extrêmes. 5.2. Écart interquartile et diagramme en boite. Définition.. On appelle écart interquartile la valeur Q3 − Q1 . Cette valeur est moins sensible aux valeurs extrêmes. Souvent on représente graphiquement l’écart interquartile et les quartiles à l’aide d’un diagramme en boîte. Exemple.. Regardons la durée de lectures pour les deux groupes. On a les informations suivantes obtenus à partir des données brutes. : 16.

(19) CHAPITRE 1. STATISTIQUES À UNE VARIABLE. Min. Q1. Médiane. Q3. Max. Groupe 1. 115. 139. 149.5. 154. 171. Groupe 2. 97. 117. 126. 135. 164. À partir de ces données, on obtient les diagrammes en boîte suivants.. Comparaison G1/G2. Groupe 2. Groupe 1. 100. 120. 140. 160. Durée. Sur ces graphiques on peut observer que : • les durées sont plus étendues pour le groupe 2 : – l’étendue du groupe 1 : e1 = 171 − 115 = 56 ; – l’étendue du groupe 2 : e2 = 164 − 97 = 67 ; • les 50% situés autour de la médiane sont plus dispersés dans le groupe 2 : – l’écart interquartile du groupe 1 est Q3 − Q1 = 154 − 139 = 15 ; – l’écart interquartile du groupe 2 est Q3 − Q1 = 135 − 117 = 18 Remarque.. L’écart interquartile est particulièrement pertinent pour comparer des groupes entre eux. Le diagramme en boîte sert aussi à observer une dissymétrie de la répartition de la population. 5.3. Variance et écart type. Pour quantifier la dispersion de la population, un point de vue possible est d’étudier les écarts avec la moyenne. Pour l’exemple des durées, on peut centrer les données en soustrayant la moyenne x = 147.86. Lorsque l’on calcule les écarts à la moyenne, il y a des valeurs positives et des valeurs négatives (voir tableau à la suite). Leur somme est nulle par définition de la moyenne. On pourrait prendre la valeur absolue de chacune de ces valeurs et calculer une moyenne, on définit alors l’écart absolu moyen. Il est plus utile et pratique mathématiquement de prendre le carré des écarts. Il n’y a plus de problèmes de signes. On définit ainsi la variance. 17.

(20) CHAPITRE 1. STATISTIQUES À UNE VARIABLE. Durée xi. xi − x. (xi − x)2. Durée xi. xi − x. (xi − x)2. 151. 3.14. 9.85. 115. -32.86. 1079.85. 164. 16.14. 260.46. 148. 0.14. 0.02. 149. 1.14. 1.3. 139. -8.86. 78.52. 136. -11.86. 140.69. 150. 2.14. 4.57. 145. -2.86. 8.19. 131. -16.86. 284.3. 149. 1.14. 1.3. 132. -15.86. 251.57. 168. 20.14. 405.57. 150. 2.14. 4.57. 141. -6.86. 47.07. 154. 6.14. 37.69. 158. 10.14. 102.8. 150. 2.14. 4.57. 135. -12.86. 165.41. 166. 18.14. 329.02. 157. 9.14. 83.52. 166. 18.14. 329.02. 135. -12.86. 165.41. 151. 3.14. 9.85. 139. -8.86. 78.52. 141. -6.86. 47.07. 147. -0.86. 0.74. 124. -23.86. 569.35. 154. 6.14. 37.69. 152. 4.14. 17.13. 151. 3.14. 9.85. 157. 9.14. 83.52. 145. -2.86. 8.19. 156. 8.14. 66.24. 146. -1.86. 3.46. 171. 23.14. 535.41. Définition.. La variance est la moyenne des carrés des écarts des observations à la moyenne, c’est-à-dire : V (x) =. n 1X (xi − x)2 n i=1. L’écart type est la racine carrée de la variance : √ σ=. V. On note aussi la variance par σ 2 . Proposition.. On a la formule développée suivante n 1 X V (x) = x2 − x2 n i=1 i. !. 18.

(21) CHAPITRE 1. STATISTIQUES À UNE VARIABLE Exemple.. Ainsi en effectuant la somme de la dernière colonne du tableau précédent on trouve : V (x) =. 36 1 X 5262.31 1 (xi − x)2 = (9.85 + · · · + 535.41) = ' 146 36 i=1 36 36. σ=. q. V (x) ' 12.1. Dans la pratique on utilise plutôt la 2e formule, on calcule ainsi la somme des carrés : 36 X. xi = 1512 + · · · + 1712 = 792327. i=1. Puis on obtient V (x) =. 792327 − (147.86)2 ' 146 36. Lorsque les données sont regroupées par classe ou que l’on n’a pas accès aux données brutes, on calcule la variance à partir de la formule suivante : p n 1X 1 X V (x) = ni m2i − x2 ni (mi − x)2 = n i=1 n i=1. !. avec les mêmes notations que précédemment. Exemple.. Si on reprend le tableau des effectifs des durées du groupe 1, on calcule ainsi : Classes. [110, 120[. [120, 130[. [130, 140[. [140, 150[. [150, 160[. [160, 170[. [170, 180[. Effectifs (ni ). 1. 1. 7. 9. 13. 4. 1. Centres de classe (xi ). 115. 125. 135. 145. 155. 165. 175. ni xi. 115. 125. 945. 1305. 2015. 660. 175. ni x2i. 13225. 15625. 127575. 189225. 312325. 108900. 30625. En effectuant la somme de la dernière ligne on a : 7 1 X V = ni x2i − x2 36 i=1. !. 13225 + · · · + 30625 − 148.332 30 797500 = − 148.332 36 = 150.9889 =. σ ' 12.3 On remarque que l’écart entre les deux résultats n’est pas négligeable. On privilégie toujours le calcul à partir des données brutes. Interpréter et comprendre l'écart type. Beaucoup de variables suivent une répartition dite en « cloche », proche de la répartition d’une loi normale. Lorsqu’une variable statistique suit une loi normale, on a les propriétés suivantes : • à peu près 68% des valeurs sont situées à moins de un écart type de la moyenne, • à peu près 95% des valeurs sont situées à moins de deux écarts-types de la moyenne, 19.

(22) CHAPITRE 1. STATISTIQUES À UNE VARIABLE • à peu près 99,7% des valeurs sont situées à moins de trois écarts-types de la moyenne.. ' 95%. ' 68% x − 2σ. x−σ x x+σ. x. x + 2σ. 5.4. Autres indicateurs. Il existe de nombreux autres indicateurs. Pour la dispersion, comme l’écart type est sensible à l’unité. On peut utiliser le coefficient de variation σx CV = pour comparer entre elles des données d’unités différentes. x Il y a d’autres caractéristiques qui sont étudiées comme l’asymétrie des données ou leur aplatissement. Nous ne parlerons pas de l’aplatissement ici. Pour l’asymétrie, On peut déjà voir des choses sur les diagrammes en boîte surtout si l’on ajoute la valeur de la moyenne sur le graphique. Mais il existe également de nombreux indicateurs numériques. Je vous en présente un seul. Définition.. Le coefficient de Yule est une mesure de comparaison de l’étalement à gauche et à droite entre les quartiles d’une série de données : Y =. (Q3 − Q2 ) − (Q2 − Q1 ) (Q3 − Q2 ) + (Q2 − Q1 ). Il vérifie les propriétés suivantes : • Y = 0 si Q1 et Q3 sont équidistants de Q2 ; • Y > 0 : si on est en présence d’un étalement à droite ; • Y < 0 : si on est en présence d’un étalement à gauche. 6. Indicateur de concentration. On peut aussi s’intéresser aux disparités de répartition des valeurs d’une variable entre les individus en regardant si une faible part des individus concentrent une part importante des unités globales de la variable. Cette étude peut se faire si la variable d’intérêt vérifie deux critères : • l’addition des différentes valeurs prises doit avoir un sens ; • le partage de la masse globale du caractère doit être possible. Un exemple classique est les salaires d’individus, dans une entreprise ou un pays. 6.1. Exemple. Une entreprise présente la répartition des revenus suivante : Effectifs. Fréquences. Amplitude. Densité. Fréq. Cum.. ni. fi. en ke. di. Fi. [500; 1500[. 50. 0.25. 1. 0.25. 0.25. [1500; 2500[. 125. 0.625. 1. 0.625. 0.875. [2500; 5500[. 25. 0.125. 3. 0.042. 1. Total. 200. 1. Classes. 20.

(23) CHAPITRE 1. STATISTIQUES À UNE VARIABLE L’histogramme permet de visualiser la situation.. Densité. Répartition des revenus. 1000. 2000. 3000. 4000. 5000. Salaire. 6.2. Masse. Pour étudier les disparité de répartition (de salaires) par exemple, on introduit le concept de masse. Définition.. La masse globale d’une variable est la somme de toutes les unités de la variable prises par l’ensemble des individus de la population : n X. xi =. i=1. K X. nk mk. k=1. De même, la masse d’une classe correspond à la somme des unités de la variable prises par les individus de la classe : nk × mk ou nk × ck On note gk la part de la masse totale détenue par les individus d’une classe, nk × mk nk × ck ou gk ' Pn gk = Pn x i=1 i i=1 xi et on note Gk la part de masse cumulée par les individus de la classe k et des classes inférieures Gk = g1 + g2 + · · · + gk Dans notre exemple, on a :. Effectifs. Fréquence. Fréq. cum.. Centre de. Masses salariale. Part de masse. Part cum.. ni. fi. Fi. classe xi. ni xi. salariale gi. Gi. [500; 1500[. 50. 0.25. 0.25. 1 000. 50 000. 0.125. 0.125. [1500; 2500[. 125. 0.625. 0.875. 2 000. 250 000. 0.625. 0.75. [2500; 5500[. 25. 0.125. 1. 4 000. 100 000. 0.25. 1. Total. 200. 1. 400 000. 1. Classes. Dans le tableau précédent, on peut observer que les 25% des plus faibles salaires touchent 12.5% de la masse salariale, tandis que 12.5% des plus haut en touchent 25%. Le salaire maximal que touchent 50% des employés correspond au concept de médiale. 21.

(24) CHAPITRE 1. STATISTIQUES À UNE VARIABLE 6.3. Médiale. Définition.. La médiale est la plus petite valeur de la variable telle que les individus prenant une valeur inférieure au égale à celle-ci représentent 50% de la masse totale de la variable.. Dans notre exemple, la médiale est dans la classe [1500; 2500[. On peut obtenir une valeur approchée par lecture graphique sur la représentation des parts cumulées de masse. Mais on peut également l’obtenir par un calcul similaire à celui de la médiane. Ici on a : M ` − 1500 0.5 − 0.125 0.375 = ⇔ M ` = 1500 + 1000 × = 2100 2500 − 1500 0.75 − 0.5 0.625. Proposition.. La médiale est toujours supérieure ou égale à la médiane.. En effet, 50 % des effectifs cumulées croissants ne permettent jamais d’atteindre plus de 50% de la masse totale. La comparaison des valeurs de la médiale et de la médiane constitue une mesure de la concentration. Il s’agit de l’écart médiale-médiane. • Lorsque l’écart entre la médiale et la médiane est important par rapport à l’étendue de la distribution de la variable, la concentration est forte. • Si la distribution est égalitaire, la concentration est faible et l’écart entre la médiale et la médiane est faible. Cet indicateur de concentration ne prend pas en compte toutes les comparaisons de parts de masse cumulées et de fréquences cumulées. Pour avoir une information plus globale, on peut représenter les parts de masse cumulées en fonction des fréquences cumulées.. 6.4. Courbe de concentration. Définition.. La courbe de concentration ou courbe de Lorenz d’une variable correspond à la représentation graphique des parts de masse cumulée en fonction des fréquences cumulées.. La courbe de concentration est obtenue en plaçant les points de coordonnées (Fk , Gk ). Dans notre exemple, on obtient : 22.

(25) CHAPITRE 1. STATISTIQUES À UNE VARIABLE. 0.6. 0.8. 1.0. Courbe de concentration. 0.0. 0.2. 0.4. Gk. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. Fk 6.5. Interprétation de la courbe de concentration. Soit une entreprise ayant une masse salariale totale de 200 000 e et n = 1 000 employés. • Répartition 1. Si la répartition est égalitaire, chaque employé touche 2 000 e. On obtient alors la courbe de concentration suivante : 1.0. d’. ég al it. 0.6 D ro ite. Gk. é. pa. rfa. ite. 0.8. 0.4 0.2 0.0 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. Fk. • Répartition 2.. rfa ite. 400. pa. 600. Gk. ité. Effectifs. 0.8 0.6. ég al. 2 975 e. d’. 1 350 e. 0.40.405. ite. Salaires. 1.0. ro. Tranche 2. D. Tranche 1. 0.2 0.0. 0.6. 0.0. 0.2. 0.4. • Répartition 3.. 0.6. 0.8. 1.0. Fk. 300. Gk. ite. 700. pa rfa. Effectifs. 0.8. é. 4 683.33 e. 0.6. ég al it. 850 e. d’. Salaires. 1.0. ro ite. Tranche 2. 0.4. D. Tranche 1. 0.2975. 0.2 0.0. 0.7. 0.0. 0.2. 0.4. 23 Fk. 0.6. 0.8. 1.0.

(26) CHAPITRE 1. STATISTIQUES À UNE VARIABLE • Répartition 4.. 800. 200. fa it e. Effectifs. 0.8. pa r. 8 000 e Gk. ité. 500 e. 0.6. ga l. Salaires. 1.0. d’ é. Tranche 2. te. Tranche 1. D. ro i. 0.4 0.2 0.2 0.0. 0.8. 0.0. • Répartition 5.. 900. 100. 0.8. ite. Effectifs. Fk. 1.0. rfa. 18 020 e. 1.0. pa. 220 e. 0.8. Gk. ga lit é. Salaires. 0.6. 0.6. d’ é. Tranche 2. 0.4. ite. Tranche 1. 0.2. D. ro. 0.4 0.2 0.099. 0.0. 0.9. 0.0. • Répartition 6.. 990. 10. 0.8 Gk. ite. Effectifs. Fk. 1.0. pa rfa. 198 020 e. 1.0. lit é. 20 e. 0.8. 0.6. ga. Salaires. 0.6. d’ é. Tranche 2. 0.4. D ro ite. Tranche 1. 0.2. 0.4 0.2 0.0099 0.0. 0.0. • Répartition 7.. 600. 400. 0.8. ite. Effectifs. Fk. 1.0. rfa. 1998 002 e. 1.0. pa. 2e. 0.8. Gk. ité. Salaires. 0.6. 0.6. d’ ég al. Tranche 2. 0.4. te. Tranche 1. 0.99. 0.2. D. ro i. 0.4 0.2 0.000999 0.0. 0.0. 0.999. 0.2. 0.4. 0.6. 0.8. 1.0. Fk. On remarque que la courbe de concentration s’éloigne de la droite d’égalité parfaite lorsque la répartition des revenus est de plus en plus inégalitaire. 6.6. Indice de Gini. L’indice de Gini permet de quantifier l’éloignement de la courbe de concentration à la droite d’égalité parfaite. Définition.. L’indice de Gini IG est égal à deux fois l’aire entre la courbe de concentration et la droite d’égalité parfaite.. 24.

(27) CHAPITRE 1. STATISTIQUES À UNE VARIABLE 1.0Courbe de concentration Dans le graphique ci-contre, la zone hachurée est délimitée par la droite d’égalité parfaite et la courbe de concentration. L’aire du triangle sous la droite d’égalité parfaite vaut 0.5 donc la zone hachurée a pour aire au maximum 0.5. En multipliant cette aire par 2, on obtient un indice toujours compris entre 0 et 1. En pratique, on calcule la surface sous l’aire de la courbe puis on soustrait celle-ci à 0.5 et on multiplie par 2.. 0.8 0.6 Gk 0.4 0.2 0.0 0.0. 0.2. 0.4 0.6 Fk. 0.8. 1.0. Proposition.. L’indice de Gini vérifie plusieurs propriétés. • On a toujours 0 6 IG 6 1. • En cas d’égalité parfaite, on a IG = 0. • Plus IG est proche de 1, plus l’inégalité est grande (par exemple, cela signifie qu’une grande part des richesses est détenue par peu d’individus). L’indice de Gini résume une partie de l’information contenue dans la courbe de concentration. C’est un premier indicateur de la concentration des unités de la variable (souvent des richesses). Calcul de l'exemple de l'indice de Gini dans notre exemple. 1.0. Courbe de concentration. 1. On détermine l’aire de chaque zone sous la courbe de concentration 0.125 = 0.015625 2 0.125 + 0.75 S2 = 0.625 × = 0.2734375 2 0.75 + 1 S3 = 0.125 × = 0.109375 2 S1 = 0.25 ×. 0.8 0.6 Gk. S3 0.4. 2. On en déduit l’aire sous la courbe de concentration :. S2. 0.2. A = S1 + S2 + S3 = 0.3984375. S1. 0.0 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 3. On déduit l’indice de Gini : IG = 2(0.5 − A) = 2(0.5 − 0.398) = 0.203. Fk Formule mathématique. G1 + G2 . 2 K X Gk−1 + Gk Gk−1 + Gk En posant G0 = 0, on obtient la formule suivante Sk = fk et A = fk . 2 2 k=1 Avec K le nombre de classe, fk la fréquence de la ie classe et Gk la part cumulée de la masse de la ie classe, on obtient En observant la méthode « graphique » précédente, on remarque que S2 = f2 ×. IG = 1 − 2A = 1 −. K X. k=1. 25. fk (Gk−1 + Gk ).

(28) CHAPITRE 1. STATISTIQUES À UNE VARIABLE. 26.

(29) Chapitre 2. Statistiques bivariées. 1. Exemple introductif avec deux variables qualitatives. On dispose d’une base de données concernant l’origine des étudiants français dans les principales filières universitaires en 2013-14. La base de données brutes contient 1 281 689 individus, pour lesquels on connaît en particulier la catégorie socio-professionnelle (CSP) des parents (X) et la filière universitaire suivie (Y ). Ce long tableau (1 281 689 lignes) peut être synthétisé dans un tableau de contingence de la façon suivante : Droit. Économie. Lettres. Sciences. Santé. DUT. Totaux. Agriculteurs. 2574. 2848. 5605. 5079. 3169. 2650. 21925. Artisans, commerçants, chefs d’entreprise. 16192. 13082. 25237. 18339. 13105. 9914. 95869. Professions libérales, cadres supérieurs. 62718. 37096. 97474. 78563. 81210. 30820. 387881. Professions intermédiaires. 19585. 15454. 51583. 36759. 22539. 18269. 164189. Employés. 21853. 18592. 52431. 34164. 16464. 17032. 160536. Ouvriers. 16811. 18003. 43269. 30768. 11879. 16355. 137085. Retraités, inactifs. 25757. 22299. 62962. 29685. 17982. 9625. 168310. Non renseigné. 15172. 20764. 47661. 24742. 32977. 4578. 145894. Totaux. 180662. 148138. 386222. 258099. 199325. 109243. 1281689. 2. Notations. Pour X et Y deux variables statistiques, on note : • x1 , x2 , . . . , xp , les p modalités de X ; • y1 , x2 , . . . , yq , les q modalités de Y ; • ni,j l’effectif des individus ayant pour caractère (xi , yj ) ; • n•j l’effectif des individus prenant la modalité yj pour le caractère Y ; • ni• l’effectif des individus prenant la modalité xi pour le caractère X ; • n•• = n l’effectif total de la population. Exemple.. Ici on a : n4• = 16418,. n4,5 = 22539, 27. n•2 = 148138.

(30) CHAPITRE 2. STATISTIQUES BIVARIÉES Ces notations seront utiles plus particulièrement lorsque les variables seront quantitatives pour exprimer les moyennes, les variances et d’autres valeurs que nous définirons ultérieurement. On remarque les relations suivantes : ni• =. q X. nij. j=1. n•j =. p X. nij. n=. i=1. p X. ni• =. i=1. q X. n•j. i=1. 3. Distributions. Le tableau de contingence des effectifs n’est pas toujours aisé à lire. On se ramène souvent aux fréquences. 3.1. Distribution jointe ou conjointe et distributions marginales. Définition.. La distribution jointe de (X, Y ) correspond aux fréquences d’observations des différents couples de modalités. Elle correspond à l’ensemble fréquences suivantes : fi,j =. ni,j n. Dans notre exemple, la distribution jointe est donnée par le tableau suivant : en %. Droit. Économie. Lettres. Sciences. Santé. DUT. Totaux. Agriculteurs. 0.2. 0.2. 0.4. 0.4. 0.2. 0.2. 1.7. Artisans, commerçants, chefs d’entreprise. 1.3. 1. 2. 1.4. 1. 0.8. 7.5. Professions libérales, cadres supérieurs. 4.9. 2.9. 7.6. 6.1. 6.3. 2.4. 30.3. Professions intermédiaires. 1.5. 1.2. 4. 2.9. 1.8. 1.4. 12.8. Employés. 1.7. 1.5. 4.1. 2.7. 1.3. 1.3. 12.5. Ouvriers. 1.3. 1.4. 3.4. 2.4. 0.9. 1.3. 10.7. 2. 1.7. 4.9. 2.3. 1.4. 0.8. 13.1. Non renseigné. 1.2. 1.6. 3.7. 1.9. 2.6. 0.4. 11.4. Totaux. 14.1. 11.6. 30.1. 20.1. 15.6. 8.5. 100. Retraités, inactifs. Les colonne et ligne de totaux correspondent aux distributions, dite marginales, des caractères pris individuellement. Définition.. La distribution marginale de X correspond à la distribution univariée de X. Elle correspond aux fréquences suivantes : fi =. ni• ni• = n•• n. 28.

(31) CHAPITRE 2. STATISTIQUES BIVARIÉES Définition.. La distribution marginale de Y correspond à la distribution univariée de Y . Elle correspond aux fréquences suivantes : f•j =. n•j n•j = n•• n. Dans un second temps, il peut être intéressant de pouvoir comparer les distributions d’une des variables en fonction de l’autre.. 3.2. Distributions conditionnelles. Définition.. La distribution conditionnelle de X sachant Y = yj correspond à la distribution de X parmi les individus prenant la modalité yj pour la variable Y . Elle correspond aux fréquences suivantes : fi|yj =. ni,j n•j. Les distributions conditionnelles des CSP pour chaque filière sont données par le tableau suivant : en %. Droit. Économie. Lettres. Sciences. Santé. DUT. Ensemble. Agriculteurs. 1.42. 1.92. 1.45. 1.97. 1.59. 2.43. 1.71. Artisans, commerçants, chefs d’entreprise. 8.96. 8.83. 6.53. 7.11. 6.57. 9.08. 7.48. Professions libérales, cadres supérieurs. 34.72. 25.04. 25.24. 30.44. 40.74. 28.21. 30.26. Professions intermédiaires. 10.84. 10.43. 13.36. 14.24. 11.31. 16.72. 12.81. Employés. 12.1. 12.55. 13.58. 13.24. 8.26. 15.59. 12.53. Ouvriers. 9.31. 12.15. 11.2. 11.92. 5.96. 14.97. 10.7. Retraités, inactifs. 14.26. 15.05. 16.3. 11.5. 9.02. 8.81. 13.13. Non renseigné. 8.4. 14.02. 12.34. 9.59. 16.54. 4.19. 11.38. Total. 100. 100. 100. 100. 100. 100. 100. On remarque que la dernière colonne correspond à la distribution marginale de la variable CSP . Chaque colonne du tableau représentant une distribution conditionnelle de X selon une modalité de Y , on parle parfois de profils colonne de X. Pour observer les liens entre les deux variables étudiées, on peut comparer les profils colonne entre eux ou avec la distribution marginale. Par exemple ici, on remarque que les étudiants dont les parents exercent une profession libérale ou sont cadres supérieurs sont surreprésentés parmi les étudiants en santé. On peut présenter ce tableau sous forme de graphique : 29.

(32) CHAPITRE 2. STATISTIQUES BIVARIÉES. 1.0. Distributions conditionnelles des CSP selon les filières. 0.0. 0.2. 0.4. 0.6. 0.8. Agriculteurs Artisans, commerçants, chefs d’entreprise Professions libérales, cadres supérieurs Professions intermédiaires Employés Ouvriers Retraités, inactifs Non renseigné. Droit. Économie. Lettres. Sciences. Santé. DUT. Ensemble. De la même façon, on peut s’intéresser aux profils ligne. Dans notre exemple, cela correspond aux distributions des filières universitaires par catégorie socio-professionnelles. Définition.. La distribution conditionnelle de Y sachant X = xi correspond à la distribution de Y parmi les individus prenant la modalité xi pour la variable X. Elle correspond aux fréquences suivantes : fj|xi =. nij ni•. Les distributions conditionnelles des filières pour chaque CSP sont données par le tableau suivant : en %. Droit. Économie. Lettres. Sciences. Santé. DUT. Sum. Agriculteurs. 12. 13. 26. 23. 14. 12. 100. Artisans, commerçants, chefs d’entreprise. 17. 14. 26. 19. 14. 10. 100. Professions libérales, cadres supérieurs. 16. 10. 25. 20. 21. 8. 100. Professions intermédiaires. 12. 9. 31. 22. 14. 11. 100. Employés. 14. 12. 33. 21. 10. 11. 100. Ouvriers. 12. 13. 32. 22. 9. 12. 100. Retraités, inactifs. 15. 13. 37. 18. 11. 6. 100. Non renseigné. 10. 14. 33. 17. 23. 3. 100. Ensemble. 14. 12. 30. 20. 16. 9. 100. Dans ce tableau, on observe que la dernière ligne correspond à la distribution marginale des filières. On peut présenter ce tableau sous forme de graphique : 30.

(33) CHAPITRE 2. STATISTIQUES BIVARIÉES. Distributions conditionnelles des filières selon les CSP 1.0. Droit Économie Lettres Sciences Santé DUT. 0.8. 0.6. 0.4. 0.2. Ensemble. Non renseigné. Retraité Inactifs. Ouvriers. Employés. Professions Intermédiaires. Professions Libérales Cadres Supérieurs. Artisans Commerçants Chefs d’entreprise. Agriculteurs. 0.0. L’observation des distributions jointe, marginales et conditionnelles a été effectuée dans le cas de deux variables qualitatives mais elle peut être faite avec tout type de variables. Cependant quand au moins une des deux variables est quantitative d’autres notions peuvent être introduites. 4. Cas où au moins une variable est quantitative. Si une des variables, par exemple X, est quantitative, on peut poursuivre l’analyse plus loin. 1. On peut déterminer des moyennes conditionnelles pour chaque modalité de Y et des variances conditionnelles. 2. À partir de ces paramètres, on peut chercher à évaluer l’influence de Y sur la variable X. 4.1. Caractéristiques marginales Définition.. On appelle moyenne marginale de X la valeur suivante : p. x=. p. X 1X fi• xi ni• xi = n i=1 i=1. On appelle variance marginale de X la valeur suivante : p. 2 V X = σX =. p. p. X 1X ni• (xi − x)2 = fi• (xi − x)2 n i=1 i=1 !. 1 X On a bien sûr toujours VX = ni• x2i − x2 . Il s’agit des simples moyenne et variance de la variable n i=1 considérée seule. Les fréquences apparaissant dans le calcul sont celles de la distribution marginale. Si on utilise les fréquences conditionnelles, on obtient les notions de moyennes et variances conditionnelles. 31.

(34) CHAPITRE 2. STATISTIQUES BIVARIÉES 4.2. Caractéristiques conditionnelles Définition.. La moyenne conditionnelle de X conditionnée par Y = yj est la valeur xj =. p p X 1 X nij xi = fi|yj xi n•j i=1 i=1. La variance conditionnelle de X conditionnée par Y = yj est la valeur p p X 1 X 2 2 nij xi − xj = Vj = fi|yj x2i − x2j n•j i=1 i=1. Appliquons cela à l’étude du taux d’hémoglobine dans le sang selon le sexe de l’individu. On considère une série statistique de 60 taux d’hémoglobine dans le sang (g/L) mesurés chez des adultes (30 hommes et 30 femmes) présumés en bonne santé. La série est rangée par valeurs croissantes du taux. F. F. F. F. F. F. F. F. F. F. F. F. H. F. F. F. F. F. F. F. 115. 116. 118. 122. 122. 123. 123. 127. 128. 129. 129. 132. 134. 134. 134. 136. 137. 137. 137. 138. H. H. H. F. H. F. F. F. F. F. H. F. F. H. F. H. F. H. H. H. 140. 140. 140. 140. 141. 141. 141. 144. 146. 148. 149. 149. 149. 150. 150. 151. 153. 155. 155. 156. H. H. H. H. H. H. H. H. H. H. H. F. H. H. H. H. H. H. H. H. 158. 159. 160. 160. 161. 161. 161. 164. 164. 164. 165. 168. 170. 172. 172. 172. 175. 176. 177. 183. On donne les résultats partiels suivants : 30 X. xi,H = 4785. i=1. 30 X. xi,F = 4066. i=1. 30 X. x2i,H = 767 717. i=1. 30 X. x2i,F = 555 462. i=1. Les notations xi,H (respectivement xi,F ) correspondent aux taux d’hémoglobine des 30 hommes (respectivement des 30 femmes). À partir des données brutes, on obtient les indicateurs synthétiques suivants : x = 147.52,. M e = 148.5. xH = 159.5,. M eH = 160.5 Q1H = 151 Q3H = 165 VH = 150.32 σH = 12.3. xF = 135.53, M eF = 136.5. Q1 = 134. Q1F = 127. Q3 = 161. Q3F = 141. V = 291.82. VF = 146.12. σ = 17.1. σH = 12.1. On obtient les diagrammes en boîte suivants. On peut également construire un tableau de contingence après regroupement en classe des taux d’hémoglobine.. H. F. 120. 130. 140. 150. 160. 170. 180. 32. Homme. Femme. ]110, 120]. 0. 3. ]120, 130]. 0. 8. ]130, 140]. 4. 9. ]140, 150]. 3. 8. ]150, 160]. 8. 1. ]160, 170]. 8. 1. ]170, 180]. 6. 0. ]180, 190]. 1. 0.

(35) CHAPITRE 2. STATISTIQUES BIVARIÉES 4.3. Analyse de variance. Pour approfondir l’étude du lien entre une variable qualitative et une variable quantitative, nous allons voir un indicateur de lien basé sur les notions de variances intragroupe et de variance intergroupes. Décomposition de la variance marginale (de la variable quantitative). Si la population est constituée de plusieurs groupes, la variance totale d’une série de données quantitatives peut se décomposer en la moyenne des variance au sein des groupes et la variance entre les groupes. p. V (X) =. p. 1X 1X ni• Vi (X) + ni• (xi − x)2 n i=1 n i=1 {z. |. }. variance intra-groupes. |. {z. }. variance inter-groupes. La variance marginale représente la variance totale. Variances intragroupes et intergroupes. Définition.. On appelle variance intergroupes la variance de X si dans chaque groupe tous les individus prenaient comme valeur la moyenne au sein du groupe. p. Vinter. 1X = ni• (xi − x)2 n i=1. On appelle variance intragroupes la moyenne des variance des sous-groupes. p. Vintra =. 1X ni• Vi (X) n i=1. La variance intergroupes représente la variance expliquée (par le découpage en groupes) et la variance intragroupes représente la variance résiduelle. Effectuons les calculs dans notre exemples (les calculs sont effectués avec les données brutes et non le tableau de contingence en classes). On obtient V (X) = 1323179/60 − 147.522 = 290.83 1 Vintra = (30 × 150.32 + 30 × 146.12) = 148.22 60 1 Vinter = (30 × 159.52 + 30 × 135.532 ) − 147.522 = 142.17 60 En additionnant la variance intra et la variance inter, on constate bien que l’on retrouve la variance totale. On constate que plus les variables sont liées, plus les groupes déterminés par la variable qualitative sont homogènes par rapport à la variable quantitative. Donc plus les variables sont liées plus la variance intra est faible et a fortiori plus la variance inter est grande. Rapport de corrélation. Naturellement le ratio entre l’inertie intergroupes et l’inertie totale constitue un indicateur de l’intensité du lien entre les deux variables. 33.

(36) CHAPITRE 2. STATISTIQUES BIVARIÉES Définition.. On appelle rapport de corrélation entre les variables X quantitative et Y qualitative la valeur suivante Vinter 2 ηX|Y = VX. Cette valeur exprime la proportion que représente la variance expliquée par rapport à la variance totale. Proposition.. Le rapport de corrélation vérifie les propriétés suivantes. 2 • On a toujours 0 6 ηX|Y 6 1. 2 • Si ηX|Y = 0, alors Vinter = 0 donc tous les groupes ont la même moyenne. Il n’y a pas de différence entre les groupes. La variance est uniquement due aux disparités au sein de chaque groupe. 2 • Si ηX|Y = 1, alors Vintra = 0. Au sein de chaque groupe il n’y a pas de variation. La variation de X est entièrement due à la différence entre groupes.. Interprétation. 2 • Plus ηX|Y est proche de 0, plus c’est la variation au sein de chaque groupe et non la différence entre les groupes qui influe sur les variations de X. 2 • A contrario, plus ηX|Y est proche de 1, plus c’est la différence entre les groupes qui explique la variation du caractère X.. 5. Étude du lien de deux variables quantitatives. Toutes les études et observations faites dans les autres cas sont toujours possibles quitte à regrouper en classes les modalités des variables si ces variables sont continues ou disposent de modalités trop nombreuses.. 5.1. Représentation graphique. Lorsque que l’on étudie deux variables quantitatives X et Y , on peut les représenter graphiquement, c’està-dire observer les couples (xi , yi ) dans un repère. Ce type de graphique est appelé nuage de points. Voici quelques exemples : Nuage de points forme allongée. Y. 5. 0. 0. 2. 4. Y. 6. 8. 10. 10. Nuage de points dispersé. 0. 5. 10. 15. 20. 0. X. 5. 10 X. 34. 15. 20.

(37) CHAPITRE 2. STATISTIQUES BIVARIÉES Nuage de points autre relation. Y 0. 5. 10. 15. 0 20 40 60 80 100. Y. -10 -8 -6 -4 -2 0. Nuage de points forme allongée 2. 20. 0. 5. 10. X. 15. 20. X. 5.2. Quantification du lien Définition.. La covariance de deux séries statistiques X et Y est la quantité notée Cov(X, Y ) définie par : Cov(X, Y ) =. n 1X (xi − x)(yi − y) n i=1. La formule suivante est plus facile à utiliser pour calculer la covariance. Proposition.. On a Cov(X, Y ) =. n 1X (xi yi ) − x × y n i=1. Voici une série d’exemples permettant de mieux comprendre ce que quantifie la covariance.. 40. Covariance négative. + (xi − x) (yi − y) < 0. (xi − x) (yi − y) > 0. (xi − x) (yi − y) < 0. 20 10. +. 20. 25. 30. 35. (xi − x) (yi − y) > 0. 10. 40. 15. 20. (xi − x) (yi − y) < 0. 25. 30. 35. 40. X. Covariance nulle. Covariance nulle. (xi + −+ x) + (yi −+y) < 0 (xi − +> 0 +x) (yi − y). (xi − x) (yi − y) <(x 0 i − x) (yi − y) > 0 + + + + + + + + + ++ + ++ + + + + + + + + + + + ++ + + + + + ++ + ++ + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +++ + + + + + + + + ++ + ++ + + + + + + + + + + + + ++ + ++ + + +++ ++ + + + + + + + + ++ + ++ + + + + + ++ ++ + + + + + ++ +++ + + + + + + + + + + ++ + +++ + + ++ + ++ + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + ++ + + ++ + + + + + + + + + + + + + + + + + + + ++ +++ + + + + + + + + + ++ + ++ + + + + + + + + + + + + + + + + + ++ + + + + + ++ + + + + + + + + + + + + + + + + + + + + ++ + ++ + ++ + + ++ + + + + + + + + ++ + + + ++ + + + + + + ++ + + + + + + + + + + + (xi − x) (yi − y) > 0+ (xi − x) (yi − y) < 0. + + + ++ + ++ + + + + + ++ + + + + + + + + ++ + + + + + + + ++ + ++ + + + ++ ++ ++ + + + + + + + + + + + + + ++ + + + ++ + + + ++ + + + + ++ + ++ + + + + + + ++ + + 0 (x (xi − x) (yi − y) > + i − x) (yi − y) < 0 +. 0. 10. 20. 30. 40. 50. -200 0 200 400 600 800. X. Y. 10 20 30 40 50 60 0. Y. 15. (xi − x) (yi − y) > 0. ++ + +++ + ++ + + + + + + ++ ++++ + + + + ++ + + ++ ++ ++ + + ++ +++ +++ + +. 0 -10. (xi − x) (yi − y) > 0 (xi − x) (yi − y) < 0. 10. +. 30. + +++ ++ ++ + + + ++ + + + + + + + + +++ + + ++ + + + + ++ ++ + ++ + ++ +. Y. 40 50 60 70 80 90. Y. Covariance positive. 0. X. 10. 20. 30 X. 35. 40. 50.

(38) CHAPITRE 2. STATISTIQUES BIVARIÉES Interprétation. • si Cov(x, y) > 0, on dit que les variables sont corrélées positivement : « quand x augmente, y a tendance à augmenter également ». • si Cov(x, y) < 0, on dit que les variables sont corrélées négativement : « quand x augmente, y a tendance à diminuer également ». Remarques. • La covariance ne « mesure bien » que les liens linéaires. • Sa valeur dépend fortement des unités. Son interprétation est donc compliquée. On préfère utiliser le coefficient de régression linéaire. Définition.. Le coefficient de corrélation de deux séries statistiques quantitatives X et Y est la quantité notée ρx,y définie par : Cov(X, Y ) Cov(X, Y ) =p ρx,y = σX σY V (X)V (Y ). Proposition.. Le coefficient de corrélation linéaire vérifie les propriétés suivantes. • −1 6 ρx,y 6 1 • La corrélation linéaire est d’autant plus significative que la valeur de ρx,y est proche de 1 en valeur absolue.. ρ = −0.085. Y 0. 0. 2. 5. 4. Y. 6. 10. 8. 15. 10. ρ = 0.817. 10. 15. 20. 0. 10. 15. ρ = −0.943. ρ = 0.147. 5. 10. 15. 20. 0. X. 5. 10 X. 36. 20. 0 20 40 60 80 100. X. Y 0. 5. X. -12. Y. 5. -8 -6 -4 -2 0. 0. 15. 20.

(39) CHAPITRE 2. STATISTIQUES BIVARIÉES 5.3. Ajustement linéaire. Soit (xi , yi ) un nuage de points de forme allongée. On cherche une droite qui passerait au « cœur » du nuage et aurait comme direction l’allongement. Notons D cette droite d’équation y = ax + b. On veut déterminer a et b tels que l’écart (vertical) quadratique entre les points du nuage et la droite soit minimale. Notons ŷi les points de la droite de D tels que ŷi = axi + b pour tout i. On veut minimiser la somme : X (yi − ŷi )2 i. Ce qui revient à déterminer le minimum de la fonction F de deux variables a et b définie par : F (a, b) =. X. (yi − axi − b)2. i. La résolution de ce type de problème sera effectuée au second semestre : 1. Dérivées partielles.  X ∂f   −2xi (yi − axi − b)   ∂a (a, b) = i X ∂f    −2(yi − axi − b)  ∂b (a, b) =. (2.1). i. 2. Recherche des points critiques. On doit résoudre X  xi (yi − axi − b) = 0   i X    (yi − axi − b) = 0 i. La deuxième équation nous donne : ! X. (yi − axi ) − nb = 0. i. nb =. X. (yi − axi ). i. b=. 1X 1X yi − a xi n i n i. = y − ax En substituant b dans la première équation il vient : X. . xi yi − ax2i − xi y − axi x = 0. i. !. a. X. (x2i. − xi x. =. i. X. (xi yi − xi y). i. !. a. X. (x2i ). −x. i. X. xi. =. i. X. (xi yi ) − y. X. i. xi. i. !. a. X. (x2i ). − nx. 2. =. i. X. (xi yi ) − ny · x. i. a=. P i (xi yi ) − ny · x P 2 2. − nx Cov(X, Y ) a= 2 σX 37. i (xi ).

(40) CHAPITRE 2. STATISTIQUES BIVARIÉES 3. Nature des points critiques. On détermine la hessienne en ce points. X ∂2f (a, b) = 2x2i ∂a2 i X ∂2f (a, b) = 2 ∂b2 i X ∂2f = 2xi ∂a∂b i X   . i H = X. X. 2x2i. i. 2xi. . 2xi .   2n . i. det(H) = 4(n. X. 2 x2i − n2 x2 ) = 4n2 σX >0. i. On conclut en remarquant que les éléments diagonaux sont positifs donc qu’il s’agit bien d’un minimum.. X. (yi − ŷi )2 minimale. i. (y4 − ŷ4 )2. (y5 − ŷ5 )2. Y (y3 − ŷ3 )2. (y2 − ŷ2 )2 (y1 − ŷ1 )2. X. Proposition.. Soient (X, Y ) un couple de variables statistiques quantitatives. La droite de régression (des moindres carrés) est la droite d’équation y = ax + b avec : a=. Cov(X, Y ) Cov(X, Y ) = 2 V(X) σX. b = y − ax 0 0 On peut aussi X vouloir 2expliquer X par Y et rechercher une droite d’équation x = a y + b , et chercher à minimiser (xi − x̂i ) on obtient alors i. a0 =. Cov(X, Y ) σY2. et 38. b0 = x − a0 y.

(41) CHAPITRE 2. STATISTIQUES BIVARIÉES. X. (xi − x̂i )2 minimale. i (y4 − ŷ4 )2. (y5 − ŷ5 )2. (y3 − ŷ3 )2. (y1 − ŷ1 )2 (y2 − ŷ2 )2. Exemple. Soit deux variables quantitatives X et Y sur une population de 20 individus les données sont regroupées dans le tableau ci-dessous : X. 32.1. 31.1. 29.8. 43.8. 20.4. 45.1. 66. 56.6. 50.3. 36.8. Y. 128.2. 106.1. 107.8. 124.7. 78.6. 157.1. 215.6. 137.1. 171.1. 137. X. 35.2. 42.6. 55.7. 32.4. 24.6. 33.2. 26.4. 35.9. 40.5. 39. Y. 141.5. 105.4. 139.5. 104.3. 88.6. 109.5. 79.9. 124.1. 122.4. 131. Observons le nuage de points obtenue :. Nuage de points (xi , yi ) 220 200 180 160 Y 140 120 100 80 20. 30. 40. 50. 60. X On a les résultats partiels suivants : X i. xi = 777.5,. X i. yi = 2509.5,. X. x2i = 32758.63,. i. X i. 39. yi2 = 334283.7,. X i. xi yi = 103481.3.

(42) CHAPITRE 2. STATISTIQUES BIVARIÉES D’où x = 38.875,. y = 125.475,. V (X) = 126.6659,. σX = 11.25459,. V (Y ) = 970.2079,. Et finalement on a Cov(X, Y ) = 296.2239,. ρ(X, Y ) = 0.845. Nuage de points (xi , yi ) 220 200 180 160 Y 140 120 100 80 20. 30. 40. 50. 60. X Attention sans la forme du nuage, on obtient rien ! Faire une régression linéaire ou pas ?. Dans les quatre cas, on a le coefficient de régression linéaire qui vaut environ 0.82.. Exemple 1. Exemple 2. Exemple 3. Exemple 4. 12.5 10.0 7.5 5.0. 12.5 10.0 7.5 5.0. 5. 10. 15. 5. 40. 10. 15. σY = 31.15.

(43) CHAPITRE 2. STATISTIQUES BIVARIÉES 5.4. Exemple de régression non linéaire. Lorsque l’on observe un forme du nuage particulière, on peut s’interroger sur l’existence d’un autre modèle. Lorsque le modèle possède deux paramètres un changement de variable peut parfois le transformer en une situation où le modèle linéaire s’applique. Sur une population de 20 individus on a obtenu les données suivantes concernant deux variables statistiques quantitatives : X. 9. 35. 23. 33. 12. 39. 23. 19. 4. 27. Y. 164. 548. 317. 513. 192. 655. 332. 238. 84. 290. Y. 422. 199. 138. 532. 273. 149. 380. 621. 288. 197. X. 29. 16. 4. 33. 21. 12. 31. 36. 25. 21. 400. 500. 600. Et on obtient le nuage suivant :. 100. 200. 300. Y. 5. 10. 15. 20. 25. 30. 35. 40. X On observe que le nuage n’a pas une forme vraiment allongé, mais plutôt incurvé qui suggère le modèle suivant : y = β × αx En appliquant la transformation z = ln y, on obtient le nouveau modèle : z = ln(β · αx ) = ln(β) + ln(αx ) = ln(β) + x ln(α) = b + ax Ainsi avec ce changement de variable on se ramène à un ajustement linéaire que l’on peut constater : X. 9. 35. 23. 33. 12. 39. 23. 19. 4. 27. Z = ln Y. 5.1. 6.31. 5.76. 6.24. 5.26. 6.48. 5.81. 5.47. 4.43. 5.67. X. 29. 16. 4. 33. 21. 12. 31. 36. 25. 21. Z = ln Y. 6.05. 5.29. 4.93. 6.28. 5.61. 5. 5.94. 6.43. 5.66. 5.28. Le nuage est alors ainsi : 41.

Références

Documents relatifs

Question

Le premier passager s’installe à une place au hasard, et les suivants s’installent à leur place sauf si elle est prise, à une place libre de façon uniforme sinon.. Dé- terminer

Soit ABC

chapapp 1 - Suites récurrentes d’ordre un 21 1.1 Suites récurrentes linéaires du premier ordre à coefficients constants et second membre constant 21 1.2 Équations aux

Décomposition de la variance marginale de la variable quantitative Si la population est constituée de plusieurs groupes, la variance totale d’une série de données quantitatives peut

Calculer la médiane, la moyenne, la variance, l’écart type et les quartiles des séries statistiques suivantes :.. • Données

chapapp 1 - Suites récurrentes d’ordre un 21 1.1 Suites récurrentes linéaires du premier ordre à coefficients constants et second membre constant 21 1.2 Équations aux

Chapitre 1 - Suites récurrentes d'ordre un 21 1.1 Suites récurrentes linéaires du premier ordre à coefficients constants et second membre constant 21 1.2 Équations aux