M ODULE 2 - O UTILS Q UANTITATIFS
S TATISTIQUES D ESCRIPTIVES
Fascicule d’exercices
Julie Scholler
T ABLE DES MATIÈRES
CHAPITRE 1 - STATISTIQUES UNIVARIÉES 2
1.1 Tableaux synthétiques et représentations graphiques . . . 2
1.2 Indicateurs de tendance centrale et de dispersion . . . 3
1.3 Utilisation des indicateurs pour comparer des groupes . . . 6
1.4 Courbe de concentration et indice de Gini . . . 8
CHAPITRE 2 - STATISTIQUES BIVARIÉES 11 2.1 Tableaux de contingence, lois marginales, lois conditionnelles et covariance . . . 11
2.2 Variance expliquée, variance résiduelle . . . 12
2.3 Régression linéaire ou non linéaire se ramenant au cas linéaire . . . 14
2.4 Révisions . . . 16
Statistiques univariées
1. Tableaux synthétiques et représentations graphiques
Exercice 1.
Soit la liste suivante des prénoms d’un groupe d’étudiants suivis entre parenthèses d’une indication du nombre de livres lus dans l’année (A = peu, B = moyen, C = beaucoup, D = exceptionnel) :
Pierre (C), Paul (C), Jacques (A), Ralph (B), Abdel (A), Sidonie (B), Henri (C), Paulette (B), Farida (B), Laure (C), Kevin (D), Carole (B), Marie-Claire (A), Jeanine (C), Julie (C), Ernest (C), Cindy (C), Vanessa (D), José (C), Aurélien (C).
1. Quelle est la population ? Quel est le caractère étudié ? De quel type est-il ? Quelles sont ses modalités ? Quel est l’effectif total ?
2. Construire le tableau représentatif de cette distribution.
3. Représenter cette distribution à l’aide d’un diagramme en bâtons.
Exercice 2.
Un bureau de statistique a mesuré les quantités produites pour quatre secteurs de sa zone de compétence, ce qui a donné les chiffres suivants (en unités de valeur) :
Secteur Marbre Peaux Chimie Tourisme Total Valeur 108 000 144 000 108 000 72 000 432 000
1. Quelle est la population ? Quel est le caractère étudié ? De quel type est-il ? Quelles sont ses modalités ? Quel est l’effectif total ?
2. Déterminer les fréquences de chaque modalité.
3. Représenter cette distribution par un diagramme en secteurs circulaires, puis par un diagramme en bâtons.
Exercice 3.
Les fréquences des appels téléphoniques dans un centre d’appel sont présentées dans le tableau suivant : Nombre d’appels (xi) Nombre de jours (ni) Fréquence (fi)
0 30
1 15
2 6
3 6
4 3
5 12
6 3
1. Quelle est la population ? Quel est le caractère étudié ? De quel type est-il ? Quelles sont ses modalités ? Quel est l’effectif total ?
2. Représenter graphiquement les effectifs des appels.
3. Calculer le nombre moyen d’appels reçus au cours d’une journée.
Exercice 4.
Nous connaissons la valeur des subventions versées à une population d’agriculteurs. La répartition des subventions par exploitation est résumée dans le tableau suivant.
Classes Effectif Densité d’effectif Fréquence Densité de fréquence [10 ; 20[ 12
[20 ; 30[ 18 [30 ; 40[ 36 [40 ; 50[ 24 [50 ; 70[ 30
1. Quelle est la population ? Quel est le caractère étudié ? De quel type est-il ? Quelles sont ses modalités ? Quel est l’effectif total ?
2. Représenter cette distribution à l’aide d’un histogramme des effectifs.
3. Déterminer les fréquences. Puis représenter cette distribution à l’aide de l’histogramme des fréquences.
Exercice 5.
L’histogramme ci-dessous représente la répartition par taille en cm de basketteurs de la NBA.
180 190 200 210 220 230 0
10 20 30 40 50 60
Taille
Effectif 1. Quelle est la population ? Quel est le caractère
étudié ? De quel type est-il ? Quelles sont ses modalités ? Quel est l’effectif total ?
2. Dresser le tableau de données correspondant à cet histogramme.
Exercice 6.
Lors d’une enquête, on interroge 1000 individus sur leur âge, leur couleur préférée, leur nombre de frères et sœurs et leur département de naissance.
1. Quelle est la nature de chacune de ces variables ?
2. Quelle représentation graphique utiliseriez-vous pour visualiser chacune de ces distributions ?
2. Indicateurs de tendance centrale et de dispersion
Exercice 7.
Pour les deux séries statistiques suivantes, calculer la médiane et la moyenne arithmétique. Commenter les résultats.
0 ; 2 ; 2 ; 3 ; 3 ; 4 ; 5 ; 5 ; 5 ; 6 ; 6 ; 8 ; 8 ; 8 ; 10 0 ; 2 ; 2 ; 3 ; 3 ; 4 ; 5 ; 5 ; 5 ; 6 ; 6 ; 8 ; 8 ; 8 ; 100
Exercice 8.
Calculer la médiane, la moyenne, la variance, l’écart type et les quartiles des séries statistiques suivantes :
• Données 1 :
41.5 ; 43.6 ; 45.3 ; 48.9 ; 50.3 ; 53.7 ; 55.0 ; 55.5 ; 56.4 ; 58.7 ; 68.6 ; 70.5
• Données 2 :
1 ; 5 ; 2 ; 5 ; 7 ; 3 ; 9 ; 13 ; 11 ; 5 ; 2 ; 3 ; 11 ; 3 ; 2 ; 5 ; 2 ; 1
• Données 3 :
50
X
i=1
xi = 238.34
50
X
i=1
x2i = 1644.243
0 2 4 6 8 10
0.0 0.2 0.4 0.6 0.8 1.0
X Fi
Exercice 9.
Voici le nombre de litres de lait achetés hebdomadairement par un groupe de 100 consommateurs :
Nombres de litres 0 1 2 3 4 5
Nombres de consommateurs 5 20 35 25 10 5 1. Quelle est la variable étudiée ?
2. Tracer une représentation graphique de la distribution de cette variable.
3. Effectuer la représentation graphique des fréquences cumulées.
4. Calculer la moyenne et la médiane de cette variable sur la population étudiée.
5. Dix consommateurs n’avaient pu participer à cette étude. Leurs réponses ont été intégrées par la suite aux résultats de l’étude. Les voici :
3 4 2 3 3 4 5 5 4 4
Pouvez-vous dire si la moyenne et la médiane sur le groupe des 110 consommateurs seront influencées par cette modification ?
6. On a déterminé pour les 100 consommateurs la consommation moyenne par tranche d’âge : âge [15,20[ [20,30[ [30,40[ [40,50[ [50,60[ [60,80[
Effectifs 22 13 14 20 9 22
Consommation moyenne 3.182 3.462 3.071 1.444 0.864
Déterminer la consommation moyenne de la classe [40,50[.
Exercice 10.
Le directeur d’un entreprise (A) a annoncé : « Les salariés de mon entreprise gagnent plus que ceux de l’entrepriseB ». Le directeur de l’entrepriseB a répondu : « Les ouvriers de mon entreprise gagnent plus que ceux de l’entrepriseA et c’est également le cas des cadres ».
Vérifier leurs propos.
Salaires EntrepriseA Entreprise B Ouvriers Cadres Ouvriers Cadres
[900; 1400[ 84 0 141 0
[1400; 1900[ 86 0 139 0
[1900; 2400[ 48 5 69 19
[2400; 2900[ 152 5 71 21
[2900; 3400[ 0 10 0 21
[3400; 3900[ 0 11 0 19
[3900; 4400[ 0 9 0 20
Exercice 11.
La direction générale de l’agriculture et de la forêt nous donne la répartition par tranches d’âges des chefs d’exploitation agricole d’une région.
âge du chef d’exploitation Nombre d’exploitations Densité d’effectif Fréquence Fréquence cumulée Moins de 25 ans - [20 ; 25[ 580
De 25 à 29 ans - [25 ; 30[ 2162 De 30 à 39 ans - [30 ; 40[ 8063 De 40 à 49 ans - [40 ; 50[ 9569 De 50 à 59 ans - [50 ; 60[ 10660 De 60 à 69 ans - [60 ; 70[ 15913
1. Définir la population étudiée, l’individu et le caractère ainsi que les modalités de celui-ci.
2. Représenter cette distribution à l’aide d’un histogramme.
3. Déterminer les fréquences et les fréquences cumulées (croissantes).
4. Quelle est la proportion des chefs d’exploitations qui ont : au moins 40 ans ? moins de 30 ans ? entre 25 et 60 ans ?
5. Représenter graphiquement la courbe des fréquences cumulées.
6. Estimer à l’aide du graphique : la médiane, le premier quartileQ1 et le troisième quartileQ3. 7. Déterminer précisément par le calcul la valeur de la médiane.
8. (*) Quelle est la proportion des chefs d’exploitations qui ont entre 35 et 65 ans ? Exercice 12.
Lors d’un contrôle continu, les résultats suivants ont été obtenus :
Note 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Effectif 1 0 1 1 1 1 3 3 6 8 10 8 6 5 2 2 1 0 1
Effectif cumulé
1. Compléter le tableau en calculant les effectifs cumulés (croissants).
2. Déterminer la moyenne et la médiane de cette série.
3. Lorsque les résultats sont étudiés selon les groupes, on obtient les diagrammes en bâtons suivants :
1 5 10 15 Note 1
2 3 4
Eff Diagramme en bâtons 1
1 5 10 15 Note
1 2 3 4 5 6 7
Eff Diagramme en bâtons 2
(a) Calculer moyenne, médiane, Q1 et Q3 de chaque groupe.
(b) Justifier ou contredire les commentaires suivants.
• « Le groupe 2 a de bien meilleurs résultats que le groupe 1. »
• « Le groupe 1 est plus homogène que le groupe 2. »
• « Dans le groupe 1, il y a de meilleurs étudiants que dans le groupe 2. »
• « Dans le groupe 1, le nombre d’étudiants en difficultés est important. » Exercice 13.
Une enquête est menée par sondage auprès de 500 étudiants de première année concernant la durée moyenne du trajet qu’ils effectuent quotidiennement entre leur domicile et l’Université. Ces étudiants ont en commun de tous avoir une durée de trajet inférieure à deux heures. Quatre-vingt dix étudiants mettent strictement moins d’un quart d’heure pour atteindre l’Université, 200 mettent strictement moins d’une demi-heure, 400 mettent moins d’une heure et 480 moins d’une heure et demie.
1. Établir un tableau synthétique représentant la distribution des temps de trajet observés (classes de valeurs, effectifs).
2. Compléter le rapport suivant, nécessaire à l’étude des problèmes de transport des étudiants :
La durée de trajet moyenne des étudiants est de. . . minutes et la moitié d’entre eux met plus de . . . minutes à atteindre l’Université. Les 20% d’étudiants les plus proches de l’Université ont une durée de trajet inférieure à . . . minutes, mais l’on constate qu’un tiers des étudiants met plus de . . . minutes à y
parvenir.
3. Utilisation des indicateurs pour comparer des groupes
Exercice 14.
Une enquête portant sur le nombre de kilomètres parcourus en une journée par les coursiers de deux sociétés de livraison a donné les résultats suivants :
Société Nombre de coursiers Minimum Q1 Médiane Q3 Maximum
A 196 95 150 190 210 260
B 100 90 125 140 160 240
1. Construire les diagramme en boîte de ces deux séries, on prendra comme extrémités des moustaches les valeurs minimum et maximum.
2. Comparer ces deux séries.
Exercice 15.
Voici le relevé des poids nets de 30 paquets de biscuits, pris pour les uns dans une unité de fabrication industrielle et pour les autres dans une fabrique artisanale.
Masse (eng) 198 199 200 201 202
Effectif 3 2 18 5 2
Masse (eng) 198 199 200 201 202
Effectif 5 7 7 6 5
1. Calculer, dans chacun des cas, la moyenne et l’écart type.
2. Ces résultats permettent-ils de savoir d’où provient chaque tableau ? Exercice 16.
Une étude portant sur le nombre de livres lus par an, pour 4 groupes de filières différentes de 30 étudiants, a donné les diagrammes suivants :
0 5 10 15 20
BM4 BM3
BM2
BM1
Boîtes à moustaches des 4 groupes
1 5 10 15
Nb de livres 1
2 3 4 5 6 7 Eff
Diagramme en bâtons 1
1 5 10 15
Nb de livres 1
2 3 4 5 6 7 Eff
Diagramme en bâtons 2
1 5 10 15
Nb de livres 1
2 3 4 5 6 7 Eff
Diagramme en bâtons 3
1 5 10 15
Nb de livres 1
2 3 4 5 6 7 Eff
Diagramme en bâtons 4
1. Associer à chaque diagramme en bâtons une boite à moustaches correspondant à la même série.
2. Sans calcul, expliquer pourquoi il semble peu judicieux de résumer certaines de ces séries (lesquelles ?), par le couple (moyenne, écart type). Préciser alors pour chaque groupe, si la moyenne est supérieure, inférieure ou à peu près égale à la médiane. Vérifier par le calcul.
3. Proposer des commentaires pour chaque groupe.
Exercice 17.
Le tableau suivant fournit pour l’année 2003, la répartition des accidents corporels et des accidents mortels de la route par tranche horaire de la journée (sourceONISR, fichier accidents) :
Heure Accidents corporels Tués Fréquence AC FC AC Fréquence Tués FC T
[0 ; 3[ 3980 467
[3 ; 6[ 3354 558
[6 ; 9[ 10063 686
[9 ; 12[ 12931 633
[12 ; 15[ 15179 741
[15 ; 18[ 20148 1118
[18 ; 21[ 17387 950
[21 ; 24[ 7178 578
1. Remplir le tableau en calculant les fréquences et les fréquences cumulées (croissantes) pour les deux séries de données (Accidents et Tués).
2. Représenter graphiquement les fréquences cumulées pour chaque série.
3. Déterminer les médianes et les quartiles des deux séries. En déduire l’écart interquartile de chaque série.
Interpréter tous ces résultats.
4. Compléter les affirmations suivantes :
(a) La tranche horaire la plus dangereuse est ... ; on y enregistre ... % des accidents corporels et ...
% des accidents mortels.
(b) Entre 21 h et 6 h du matin, le pourcentage des tués atteint ... % alors qu’on ne compte que ...%
des accidentés. Cela atteste de la gravité des accidents à ces heures.
(c) Un accidenté sur deux a eu son accidents avant ... h.
(d) Un tué sur deux l’est entre 9h et ...h.
(e) Les accidents corporels se produisent en moyenne à ... h et les accidents mortels à ... h.
5. Expliquer pourquoi l’affirmation (e) manque d’intérêt et de pertinence. Entre moyenne et médiane, quel est le paramètre le plus intéressant ici ?
4. Courbe de concentration et indice de Gini
Exercice 18.
Dans une entreprise, la répartition des salaires est la suivante :
Salaire mensuel Effectif de salariés
[500 ; 1500[ 50
[1500 ; 2500[ 125
[2500 ; 5500[ 25
1. Tracer l’histogramme représentatif des données.
2. Quel est le salaire moyen dans l’entreprise ? Quel est le salaire médian ? 3. Calculer la masse salariale par classe et représenter la courbe de Lorenz.
4. Calculer l’indice Gini. Commenter.
Exercice 19.
Eurostat nous fournit les données suivantes sur les niveaux de vie dans les principaux pays de l’Union Européenne.
1. Interpréter les valeurs des première et troisième colonnes pour la France (20 450 et 3.3).
2. Expliquer rigoureusement pourquoi tous les niveaux de vie moyens sont supérieurs aux niveaux de vie médian.
3. Si c’est possible, calculer le niveau de vie moyen sur l’ensemble des individus des 6 pays cités (Allemagne, Espagne, France, Italie, Pologne et Royaume-Uni).
4. Si c’est possible, calculer le niveau de vie médian sur l’ensemble des individus des 6 pays cités (Allemagne, Espagne, France, Italie, Pologne et Royaume-Uni).
5. S20 (respectivementS80) correspond à la part de masse cumulée des niveaux de vie des 20% (respective- ment des 80%) ayant les niveaux de vie les plus bas. Interpréter la valeur de la quatrième colonne pour la France (4,4).
6. Comparer l’indice de Gini de la France et de l’Espagne. Commenter.
7. Les indices de Gini des niveaux de vie en France et en Pologne sont quasiment égaux. Est-ce que cela signifie que leurs courbes de concentration sont identiques ? Que leurs situations sont identiques ? Commenter précisément.
Exercice 20.
L’agreste nous fournit les données suivantes sur les surfaces agricoles utilisées (SAU) en France.
1. Quelle est la population considérée ? Quel est la caractère étudié ?
2. Représenter graphiquement la courbe de concentration de la superficie des surfaces agricoles utilisées.
3. Déterminer la surface médiane et la médiale des surfaces.
4. Interpréter ces deux valeurs.
5. Calculer l’indice de Gini mesurant les inégalités de répartition des surfaces agricoles utilisées.
Exercice 21.
La répartition des salaires mensuels d’une entreprise est donnée par le tableau suivant : Salaire [1000; 1400[ [1400; 1800[ [1800; 2600[ [2600; 3800[
Effectif 144 192 40 24
1. Décrire la série statistique étudiée (population, caractère, type).
2. Compléter le tableau suivant :
Salaire Effectif Fréquence Fréq Cum Fi Masse salariale gi Gi [1000; 1400[ 144
[1400; 1800[ 192 [1800; 2600[ 40 [2600; 3800[ 24
Total / /
• gi est la fréquence (proportion) de la masse salariale de la lignei;
• Gi est la fréquence cumulée de la masse salariale à la ligne i.
3. Dans quelle classe se trouve la médiane de cet échantillon ? Calculer sa valeur.
4. Représenter la courbe des fréquences cumulées croissantes.
5. Tracer la courbe de Lorenz associée à cette distribution.
6. Calculer l’indice de Gini. Commenter.
7. Déterminer graphiquement la médiale. Vérifier par un calcul.
Statistiques bivariées
1. Tableaux de contingence, lois marginales, lois conditionnelles et covariance
Exercice 22.
Une étude effectuée sur 180 étudiants ayant obtenu une première année de licence d’Économie nous fournit les résultats suivants concernant le nombre d’années pour obtenir la première année de licence et le nombre de tentatives pour obtenir le bac :
Bac L1 1 2 3
1 95 32 9
2 9 23 12
1. Identifier la population, sa taille ainsi que les variables étudiées en précisant leur type.
2. Établir les lois marginales, en arrondissant à 3 décimales. Calculer les moyennes et variances marginales si elles existent.
3. Calculer les lois conditionnelles pour le nombre d’années d’obtention du bac et pour le nombre d’années d’obtention de la L1, en arrondissant à 3 décimales.
4. Calculer la covariance et le coefficient de corrélation. Commenter.
Exercice 23.
Un garage dispose du tableau suivant qui résume l’état des ventes de voitures de l’an dernier en fonction de leur prix de vente (en milliers d’euros) et de leur cylindrée (en centaine de cm3).
Cylindrée Prix [6;10[ [10;20[ [20;30] Total
[9 ; 15[ 35 10
[15 ; 19[ 60 20 90
[19 ; 21[ 0 25 30
Total 45 75 50
1. Décrire la population et les caractères étudiés.
2. Compléter le tableau.
3. Calculer les profils colonnes (lois conditionnelles selon le prix) en arrondissant à 3 décimales.
4. Calculer les lois marginales. Calculer les moyennes et variances marginales si elles existent.
5. Calculer la covariance et le coefficient de corrélation linéaire. Commenter.
2. Variance expliquée, variance résiduelle
Exercice 24.
Un village est composé des 3 hameaux. Une étude statistique sur la taille des habitants de plus de 15 ans de ces trois hameaux. Les données sont présentées dans le tableau suivant :
Taille (en cm) Hameau A Hameau B Hameau C
[110; 120[ 0 1 2
[120; 130[ 5 5 12
[130; 150[ 12 10 34
[150; 160[ 35 12 45
[160; 170[ 46 4 80
[170; 180[ 12 2 74
[180; 185[ 9 0 85
[185; 190[ 4 0 30
[190; 195[ 0 0 10
[195; 200[ 0 0 4
1. Calculer la taille moyenne dans chaque hameau.
2. Calculer de deux façons différentes la moyenne des tailles de tous les habitants du village.
3. Calculer la variance et l’écart type des tailles des habitants dans chaque hameau.
4. Calculer la variance et l’écart type des tailles de tous les habitants du village.
5. Calculer la moyenne des variances dans chaque hameau et la variance des moyennes de chaque hameau (utiliser l’effectif de chaque hameau). Additionner ces deux valeurs. Que constatez-vous ?
6. Calculer le rapport entre la variance des moyennes et la variance totale. Cela représente la part de la variance expliquée par l’hétérogénéité entre les hameaux.
Exercice 25.
Une enquête est réalisée auprès d’une clientèle (533 individus) pour étudier leur disposition à payer (Xen e) un forfait téléphonique. Cette clientèle a été segmentée en fonction d’un critèreY qui prend 3 modalités A, B et C. Après consultation on obtient le tableau de contingence suivant :
X
Y A B C Total
]0; 5] 38 11 0 49
]5; 10] 55 63 0 118
]10; 15] 53 76 0 129
]15; 20] 32 62 1 95
]20; 25] 6 24 8 38
]25; 30] 5 4 40 49
]30; 35] 2 1 37 40
]35; 40] 1 0 12 13
]40; 45] 0 0 2 2
Total 192 241 100 533
On donne les résultats partiels suivants : X
i
niAxiA= 2105 X
i
niAx2iA= 31750 X
i
niBxiB = 3217.5 X
i
niBx2iB = 50706.25 X
i
niCxiC = 3035 X
i
niCx2iC = 94175
1. Déterminer les moyennes conditionnelles deX. En déduire la moyenne marginale deX. 2. Déterminer les variances marginale et conditionnelles.
3. Déterminer la variance résiduelle (la moyenne des variances conditionnelles pondérées par les effectifs respectifs).
4. Déterminer la variance expliquée.
5. En déduire le carré du rapport de corrélationη2.
6. À partir du tableau et des calculs précédents la segmentation de la clientèle vous semble-t-elle pertinente ? Exercice 26.
L’Insee a publié la répartition des 225 784 mariages célébrés en 2013, en fonction de l’âge des épouses (X) et de l’état matrimonial antérieur (Y) de celles-ci.
Célibataires Veuves Divorcées Ensemble
de 16 à 19 ans 1708 0 0 1708
de 20 à 24 ans 23965 6 261 24232
de 25 à 29 ans 62087 27 1725 63839
de 30 à 34 ans 44639 102 4317 49058
de 35 à 39 ans 21538 200 5908 27646
de 40 à 49 ans 19962 690 13702 34354
de 50 à 59 ans 6584 865 10683 18132
de 60 ans ou plus 1496 909 4410 6815
Total 181979 2799 41006 225784
1. Calculer les centres de classesxi, puis les moyennes conditionnelles et la moyenne marginale de X. 2. Calculer les variances conditionnelles et la variance marginaleV de X.
3. Calculer la variance expliquéeVe et la variance résiduelleVr et vérifier que l’on a bienV =Ve+Vr. 4. La variance expliquée est-elle une bonne mesure pour mesuré l’écart entre les groupes ? Sinon, proposer
une grandeur mieux adaptée.
Exercice 27.
Deux populationsA et B de 50 individus chacune, ont passé un test dont le score est compris entre 0 et 100.
On notexi,A les scores des individus du groupeA etxi,B, les scores des individus du groupe B. L’ensemble des données brutes pour les deux populations sont présentées dans les tableaux ci-dessous :
Score du Groupe A
14 17 23 23 23 23 24 24 25 25 26 26 26 27 27 28 29 30 32 33 33 33 36 37 37 38 38 40 41 42 42 42 42 43 43 43 44 49 49 49 50 51 53 54 58 59 59 60 65 81
Score du Groupe B
19 29 29 35 37 37 40 41 45 45 49 49 49 51 51 52 53 53 54 55 55 55 56 57 58 58 58 59 59 59 61 62 63 64 65 68 68 70 70 71 71 73 75 76 77 80 84 90 95 96 On donne les résultats intermédiaires suivants avec les conventions habituelles :
50
X
i=1
xi,A = 1 916,
50
X
i=1
x2i,A= 82 788,
50
X
i=1
xi,B = 2 926,
50
X
i=1
x2i,B = 184 416
À l’aide de représentations graphiques, de paramètres de positions et de dispersion, vous synthétiserez les scores de chacune de ces populations, en mettant en évidence ce qui les distingue.
3. Régression linéaire ou non linéaire se ramenant au cas linéaire
Exercice 28.
Dans une recherche sur l’amélioration du rendement scolaire de ses étudiants, un professeur tente d’évaluer l’impact du temps d’étude pour un examen sur le résultat obtenu à celui-ci. Il demande donc à ses étudiants d’inscrire sur une feuille, avant de commencer leur examen, leur nom et le temps qu’ils ont consacré à l’étude pour cet examen ; puis il ramasse ces feuilles pendant l’examen. Après la correction de l’examen, le professeur reprend ces feuilles et inscrit la note attribuée.
L’ensemble de ces données nous fournit le nuage de points ci-dessous. Le caractèreX correspond au temps d’étude en heures et le caractèreY à la note obtenue sur 100.
Temps d’étudeX en heures NotesY
0 1 2 3 4 5 6 7 8 9 10 11
30 40 50 60 70 80 90 100
La somme de toutes les notes vaut 1558 et la somme de tous les carrés des notes vaut 112424. La somme de toutes les heures de travail est 77.1 et la somme de tous les carrés des temps d’étude vaut 346.57. La somme des produitsxiyi vaut 5571.7.
1. Déterminer les valeurs des moyennes, des variances et de la covariance.
2. Calculer le coefficient de corrélation linéaire entre les deux caractèresx ety. Commenter.
3. On enlève de l’étude l’étudiant qui a travaillé 10 heures et a obtenu seulement 63. On obtient les nouvelles valeurs suivantes :
mx my V(x) V(y) Cov(x, y) 3.19 71.19 1.53 96.43 7.85
4. Justifier l’utilisation de la droite de régression linéaire en calculant le coefficient de corrélation linéaire.
5. Déterminer la droite de régression linéaire de y en fonction de x par la méthode des moindres carrés notéeD : y=ax+b.
6. Tracer la droite obtenue sur le même graphique que le nuage de point.
7. En utilisant la droite de régression linéaire, prévoir la note d’un étudiant ayant travaillé 6 heures.
Exercice 29.
Considérons un échantillon de 10 employés (ayant entre 40 et 50 ans) d’une entreprise. On a déterminé pour chaque employé le nombre d’années de service (caractère X) et le nombre de jours d’absence pour raison médicale au cours de l’année précédente (caractèreY).
Nombre d’années de service : xi 2 14 16 8 13 20 24 7 5 11 Nombre de jours d’absence :yi 3 13 17 12 10 8 20 7 2 8
1. Représenter le nuage de points ci-dessous.
2. Quelle relation entre les deux caractères le nuage de points indique-t-il ? 3. Quel est le nombre moyen d’années d’ancienneté des employés de l’étude ? 4. Déterminer les moyennes, les variances et la covariance.
5. Calculer le coefficient de corrélation linéaire entre ces deux caractères. Commenter.
6. Si cela est justifié, tracer la droite de régression linéaire sur le nuage de points. Vérifier que le point moyen (mx, my) est bien sur cette droite.
7. Selon la droite de régression, à combien de jours d’absence pour raison médicale peut-on s’attendre chez un employé ayant 10 années de service ?
8. Quelle interprétation pouvez-vous donner à la pente de la droite de régression ? Exercice 30.
Un hypermarché dispose de 20 caisses. On s’intéresse au temps moyen d’attente en fonction du nombre de caisses ouvertes. Le tableau ci-dessous donnex le nombre de caisses ouvertes ety le temps moyen d’attente correspondant
Nombre de caisses ouvertes : xi 3 4 5 6 8 10 12 Temps moyen d’attente (en minutes) : yi 16 12 9.6 7.9 6 4.7 4 1. Calculer le coefficient de corrélation linéaire entre les deux variables.
2. Faut-il effectuer un ajustement par une droite ?
3. On effectue le changement de variable suivant :X1 = ln(X) etY1= ln(Y). Calculer les valeurs prises parX1 etY1, puis calculer le coefficient de corrélation de (X1, Y1). Commenter.
4. Déterminer la droite de régression de Y1 par rapport à X1. En déduire une relation ajustant Y par rapport àX du type y=αxβ.
Exercice 31 (Examen 2014/2015).
On s’intéresse à une population den= 10 catégories socio-professionnelles. On mesure le revenu mensuel moyenx (en milliers d’euros) et les inégalités salarialesy (mesurées avec l’indice de Gini) pour chacune de ces catégories.
1. Modèle linéaire.
On donne
10
X
i=1
xi = 26.60,
10
X
i=1
x2i = 81.10,
10
X
i=1
yi = 6.12,
10
X
i=1
yi2= 4.3662,
10
X
i=1
xiyi = 18.40. (a) Calculer la moyenne et la variance de x et de y.
(b) Calculer la covariance Cov(x, y) et le coefficient de corrélation linéaire r1 dex avec y. (c) Calculer l’équation de la droite de régression linéaire de y par rapport àx.
2. Modèle quadratique.
On posez= (x−3.40)2 et on donne
10
X
i=1
zi= 15.82,
10
X
i=1
zi2= 54.8998,
10
X
i=1
ziyi= 5.4016.
(a) Calculer le coefficient de corrélation linéaire r2 dez avecy et l’équation de la droite de régression linéaire dey par rapport àz.
(b) En déduire l’expression de y par rapport àx. 3. Conclusion
(a) Quel modèle est le plus adapté ?
(b) Proposer une prévision de l’indice de Gini pour une catégorie socio-professionelle dont le salaire moyen est de x= 4.8 milliers d’euros.
4. Révisions
Exercice 32.
On souhaite étudier le lien entre le QI (caractère noté x) et le salaire (caractère notéy). Une étude sur 100 jeunes diplômés a fourni les résultats suivants :
Salaire QI [102,110[ [110,120[ [120,130]
[1700,2000[ 2 24 21
[2000,2300] 14 34 5
1. Étude du QI.
(a) Représenter la répartition du QI parmi les personnes de l’étude.
(b) Calculer les fréquences cumulées et les représenter graphiquement.
(c) Par lecture graphique, donner une valeur approchée pour les différents quartiles.
(d) Calculer le QI moyen et l’écart type des QI.
2. Étude du lien entre le QI et le salaire.
(a) Calculer la covariance entre le QI et le salaire.
(b) Commenter.
3. Étude du salaire selon le sexe.
On dispose des données suivantes.
Répartition des salaires.
Sexe Eff. Min. Q1 M e Q3 Max.
F 50 1732.2 1842.5 1882.2 1924.9 2083.9 M 50 1932.6 2088.6 2119.9 2164.2 2284.5
50
X
i=1
yF,i= 94 498.32 ;
50
X
i=1
yM,i= 106 228.6 ;
50
X
i=1
yF,i2 = 178 888 386 ;
50
X
i=1
y2M,i= 225 941 396 (a) Calculer les salaires moyens par sexe et pour toutes les personnes de l’étude.
(b) Calculer les variances par sexe. En déduire la variance intragroupes.
(c) Calculer la variance globale. En déduire la variance intergroupes.
(d) Déterminer le rapport de corrélation permettant de mesurer le lien entre le sexe et le salaire.
(e) Compléter votre étude par une représentation graphique.
(f) Commenter les résultats obtenus aux deux questions précédentes.
4. Étude du lien entre le salaire et le QI selon le sexe.
On dispose des données suivantes
50
X
i=1
xF,i = 6 015.667 ;
50
X
i=1
xM,i= 5 589.644 ;
50
X
i=1
x2F,i= 724 116.6 ;
50
X
i=1
x2M,i= 625 494.4
50
X
i=1
xF,iyF,i = 11 374 986 ;
50
X
i=1
xM,iyM,i= 11 883 551
(a) Pour chaque sexe, calculer le coefficient de corrélation linéaire entre le salaire et le QI. Commenter.
(b) Pour les jeunes diplômés masculins, calculer l’équation de la droite de régression linéaire du salaire en fonction du QI.
(c) L’équation de la droite de régression linéaire du salaire en fonction du QI pour les jeunes diplômées féminines est y= 15.86x−18.15.
Représenter graphiquement les deux droites.
(d) Commenter l’écart salarial entre les sexes.