STATISTIQUE TERMINALE C 1
0.1 Dénomination de la ressource et des contributeurs . . . 1
0.2 Les objectifs pédagogiques . . . 1
0.2.1 Les objectifs pédagogiques généraux . . . 1
0.2.2 Les objectifs pédagogiques spécifiques . . . 1
0.3 Liens avec les autres parties du programme . . . 2
0.4 Introduction . . . 2
0.5 Rappel sur une série statistique simple . . . 2
0.6 Distributions ou séries statistiques doubles . . . 7
0.6.1 Nuage de points - point moyen associé à une série statistique double 13 0.6.2 Inertie d’un nuage de point . . . 18
0.6.3 Application du théorème de Huygens : covariance d’une série sta- tistique double . . . 23
0.6.4 Minimum d’inertie . . . 24
0.6.5 Autres ajustements . . . 34
0.7 Exercices . . . 35
0.8 Bibliographie et Webographie . . . 35
0.8.1 Bibliographie . . . 35
0.8.2 Webographie . . . 35
♣
0.1 Dénomination de la ressource et des contributeurs
• Titre de la ressource : Statistique en Terminale C
• Nom de l’étudiant : Ngouyap Njupouen Abdou Gafar
• Nom de l’encadreur de l’ENS : Dr Fotso Siméon
• Nom de l’inspecteur : Mne Kamga Alice
• Nom de l’encadreur du lycée : Mr Tsouleu Pascal Péguil
0.2 Les objectifs pédagogiques
0.2.1 Les objectifs pédagogiques généraux
– être capable d’analyser les données numériques relatives à un ensemble d’objets et de tirer une conclusion.
– être capable d’extraire l’essentiel de l’information contenue dans le tableau de don- nées et d’en fournir une représentation afin de donner une interprétation.
– être capable de resumer les données collectés par quelques caractéristiques.
– interpréter ces caractéristiques.
0.2.2 Les objectifs pédagogiques spécifiques
A la fin de la leçon l’apprenant doit être capable de : – Consolider les acquis de la classe de première.
– Reconnaître les séries statistiques à deux caractères.
– Ressortir les séries statistiques marginales et caractéristiques marginaux de la série statistique double.
– Construire un nuage de points associé à une série statistique double.
– Déterminer l’inertie d’un nuage de point.
– Rappeler le théorème de Huygens et de l’appliquer.
– Déterminer le minimum d’inertie.
0.3 Liens avec les autres parties du programme
Les parties du programme en lien avec la statistique en classe de Terminale C sont .
– La géometrie analytique dans le plan : elle permet de mieux constriure le nuage de points et de faire l’ajustement linéaire.
– Notion de fonction exponentielle, logarithme et puissance pour l’ajustement non linéaire.
– Etude de fonction : elle permet de mieux assimilé le traçage des droites de régression.
–
0.4 Introduction
Dans le langage courant le mot « statistiques », au pluriel, désigne des collections de chiffre, présentées souvent sous forme de tableaux ou sous forme de graphiques, et qui regroupent les observations effectuées sur des faits nombreux relatifs à un même phénomène. Par contre la « statistique », au singulier, sera constituée par l’ensemble de procédés ou de méthodes qui auraient pour but l’étude mathématique des statistiques. De ces deux définitions nous dirons que la statistique est l’outil avec lequel on travaille une matière première constituée par les statistiques. Nous débuterons ce cours par un rappel sur les statistiques , ensuite les séries à deux variables dans lequel le travail consistera à représenter la série statistique par un nuage de point, calculer l’inertie d’un nuage de point, appliquer le théorème de Huygens aux séries statistiques doubles et enfin calculer le minimum d’inertie.
0.5 Rappel sur une série statistique simple
Activité 0.5.1.
Objectif visé: consolider les acquis sur les séries statistiques simples.
Le tableau ci-dessous donne la répartition des notes sur 20régroupées en classe, obtenues
par 67élèves de la classe de terminale C.
Classe de note(xi) [2, 4[ [4, 6[ [6, 8[ [8, 10[ [10, 12[ Total
Effectif(ni) 13 23 21 6 4 67
1. Déterminer la classe modale.
2. Compléter le tableau ci-dessous.
Classe de note(xi) [2, 4[ [4, 6[ [6, 8[ [8, 10[ [10, 12[ Total
Effectif(ni) 13 21 6 4 67
amplitude Fréquence
centre de la classe(ci)
Effectif cumulé croissant(ECC) Effectif cumulé decroissant(ECD)
3. Calculer la moyenne de cette série statistique . 4. Calculer la médiane de cette série statistique.
5. Construire l’histogramme de cette série statistique.
6. Construire dans le même répère le diagramme des effectifs cumulés croissants et celui des effectifs cumulés décroissants. En déduire graphiquement la médiane de cette série statistique.
7. Calculer la variance et l’écart type de cette série statistique.
Correction 0.5.1.
1. La classe modale est[4,6[, car elle possède l’effectif maximal.
2.
Classe de note(ci) [2, 4[ [4, 6[ [6, 8[ [8, 10[ [10, 12[ Total
Effectif(ni) 13 23 21 6 4 67
Fréquence 0.194 0.343 0.313 0.089 0.059 0.999
centre de la classe(xi) 3 5 7 9 11
Effectif cumulé croissant(ECC) 13 36 57 63 67 Effectif cumulé decroissant(ECD) 67 54 31 10 4
nici 39 115 147 54 44 399
nic2i 117 575 1029 486 484 2691
3. - La moyenne(m) est donnée par :
m =
k
X
i=1
nixi
n = 39967 = 5.95donc m=5.95 . 4. Calcul de la médiane : notonsMe la médiane
soit f la fonction de répartition définie sur l’intervalle [4,6[.
On a f(Me) = 672 = 33.5 et13< f(Me)<36, implique 4≤Me <6.
Par application des fonctions affines, on en déduit que :
f(Me)−13
Me−4 = 36−136−4 c’est-à-dire M20.5
e−4 = 232 d’ou Me = 5.76.
5. Histogramme
L’histogramme est constitué d’une suite de rectangle dont la base est l’amplitude de chaque classe et la hauteur est l’effectif de la classe correspondante
2 4 6 8 10 12
x
4 8 12 16 20 24 y
0
6. Construisons dans un repère orthogonal les points de coordonnées : (2; 0),(4; 13),(6; 36),(8; 57),(10; 63),(12; 67)
points dont les abscisses sont égales aux bornes supérieures des classes, sauf pour le premier point, et dont les ordonnés sont les effectifs cumulés croissants correspon- dants.
En joignant ces points par les segments de droites, nous obtenons le polygone des
effectifs cumulés croissants de la distribution donnée.
Construisons également dans le même repère les points de coordonnées : (2; 67),(4; 54),(6; 31),(8; 10),(10; 4),(12; 0)
Les abscisses de ces points étant égales aux bornes inférieures des classes, sauf pour le dernier point, et dont les ordonnées sont les effectifs cumulés décroissants corres- pondants.
En joignant ces points par des segments de droite nous obtenons le polygone des effectifs cumulés décroissants. La médiane est l’abscisse du point d’intersection des deux courbes des effectifs cumulés croissants et décroissants.
2 4 6 8 10 12
x
10 20 30 40 50 60 67 y
0 Me
7. Calcul de la variance et l’écart type :
σX2 =
k
X
i=1
nix2i
N −m¯2 = 269167 −5.952 = 4.761; donc σ2X=4.761 l’écart type est donné par : σ =p
σ2X =√
4.761; donc σ=2.182
La représetation des séries statistiques par des tableaux traduit de façon insuffisante les variables étudiées, surtout lorsque les valeurs prises par les variables sont nombreuses. Il est cependant souhaitable de caractériser, de résumer une série statistique par quelques nombres simple . Nous nommerons caractéristiques(ou paramètres) les nombres en ques- tions. Ces caractéristiques sont au nombre de deux :
i) Caractéristiques de position
Soit ([ai−1;ai[, ni)1≤i≤n une série statistique d’éffectif total N.
– Une classe est un intervalle sémi-fermé [a, b[.
– Le centre de la classe [a, b[ est le nombre a+b2 .
– La classe modale de X : toute classe d’effectif(ou de fréquence) maximal.
– Le mode est la valeur de la variable qui présente l’effectif le plus élevé(ou la fré- quence la plus élevée).
– La médiane est le nombre réel Me tel que le nombre d’individus de modalités supérieures ou égales à Me et le nombre d’individus de modalités inférieures ou égales à Me soient tous deux au moins égaux à N2
– La moyenne arithmétiqueoumoyenne du caractère X est le réel notéx, défini¯ par : x¯= 1
N
k
X
i=1
nixi =
k
X
i=1
fixi, où xi est le centre de la classe [ai−1;ai[ ii) Caractéristiques de dispersion
Soit ([ai−1;ai[, ni)1≤i≤n une série statistique d’éffectif total N et de moyenne x.¯ Pour tout entier tel que 1≤i≤n, on désigne par xi le centre de la classe [ai−1;ai[.
– L’écart moyen est le nombre réel emtel que : em = 1 N
n
X
i=1
ni|xi−x|.¯
– La variance du caractère X noté σX2, est la moyenne des carrés des écarts des valeurs de la variable à leur moyenne arithmétique. En d’autre terme c’est le nombre réel positif notée σX2 et défini par : σX2 = 1
N
k
X
i=1
ni(xi−x)¯ 2 =
k
X
i=1
fi(xi −x)¯ 2. – L’écart type du caractère X désigné par σ, est la racine carrée de la variance
c’est-à-dire σ =p σX2 .
Les paramètres qui permettent de représenter les resultats statistiques sous forme de graphiques.
Soit m un nombre réel
– On appelleeffectif cumulé croissant(ec)de la modalitém, la somme des effectifs des modalités inférieures ou égale à m. On dit aussi que c’est l’effectif de l’intervalle ]− ∞;m];
– On appelle effectif cumulé décroissant(ed) de la modalité m, la somme des ef- fectifs des modalités supérieures ou égale à m. On dit aussi que c’est l’effectif de l’intervalle [m; +∞[;
– On appelle fréquence cumulée décroissante de m, le quotient de son effectif cumulé décroissant par l’effectif total ;
– On appellefréquence cumulée croissantedem, le quotient de son effectif cumulé croissant par l’effectif total ;
– On appelle diagramme ou polygonne des effectifs cumulés croissants, une ligne brisée qui s’obtient en joignant tous les points de coordonnées (m;ec).
Le plan étant muni d’un repère orthogonal ; m désigne une modalité ; ec son
effectif cumulé croissant ; ed son effectif cumulé décroissant.
– On appellediagramme ou polygonne des effectifs cumulés décroissants, une ligne brisée qui s’obtient en joignant tous les points de coordonnées (m;ed)
– Une variable statistique est ditdiscret, lorsqu’elle prend un nombre fini de valeurs : par exemple le nombre de voiture par famille au Cameroun .
– Une variable statistique est ditcontinue, lorsqu’elle prend des valeurs quelconques.
Exercice proposé 0.5.1.
Le tableau suivant donne le répartition en classe d’amplitude 4, le poids(en kg) de 45 individus.
Classe [2, 6[ [6, 10[ [10, 14[ [14, 18[ [18, 22[ [22, 26[
Effectif(ni) 3 8 10 15 7 2
1. Completer le tableau ci-dessous.
Classe [2, 6[ [6, 10[ [10, 14[ [14, 18[ [18, 22[ [22, 26[
Effectif(ni) 3 8 10 15 7 2
centre de la classe(xi)
Effectif cumulé croissant(ECC) Effectif cumulé decroissant(ECD)
2. Déterminer la classe modale et le mode de cette série statistique.
3. Calculer la médiane de cette distribuion
i-par calcul, en s’appuyant sur les effectifs cumulés croissants ; ii-par calcul, à partir des effectifs cumulés décroissants,
iii-par le graphique, en utilisant la courbe cumulative croissante 4. Calculer la moyenne arithmétique de cette série statistique.
5. Calculer la variance et l’écart type.
0.6 Distributions ou séries statistiques doubles
Objectif visé : être capable d’interpréter une série statistique double et réssortir un lien entre ses variables.
Activité 0.6.1.
Dans une classe de terminaleC, on relève les notes de 10 élèves en mathématiques et en chimie. On obtient les résultats suivants :
Elève A B C D E F G H I J
Note de maths 12 11 9 10 15 11 12 9 16 12 Note de chimie 17 16 8 13 9 9 17 10 11 11
Tableaux linéaires Désignons par :
Ω : la population étudiée c’est-à-dire l’ensemble de10 élèves.
X : le caractère "note obtenue en mathématiques".
Y : le caractère "note obtenue en chimie".
X(Ω) et Y(Ω) l’ensemble des modalités du caractère X etY respectivement.
a) Déterminer X(Ω), Y(Ω),X(A), X(G), Y(E) etY(I).
b)Combien d’élève ont obtenu 11en maths et 16en chimie.
c)À l’aide du tableau precedent, recopie et completer le tableau ci-après.
X(Ω)\XY(Ω) 9 10 11 12 13 15 Total
8 1 0 0 0 1
9 0 1 1 0
11 1 0 1 0 0 2
15 0 0 1
16 0 0 2 0 0
17 0 2 2
Total 3 3 0 1
Tableau à double entrée
Séries statistiques marginales et caractéristiquee marginaux.
d) Á partir du tableau ci-dessous, recopier et compléter les tableaux suivants ..
xi 9 10 11 12 13 15 ni
xi ∈ X(Ω) et ni est l’éffectif de xi. yj 8 9 11 15 16 17
nj
yj ∈Y(Ω) etnj est l’éffectif de yj.
e) Déterminer la moyenne et la variance associées aux caractères X etY respectivement.
Correction 0.6.1.
a) X(Ω) ={9,10,11,12,13,15},Y(Ω) ={8,9,11,15,16, ,17}, X(A) = 12,X(G) = 17, Y(E) = 11,Y(I) = 16.
b) 2élèves ont obtenus 11en mathématiques et 16en chimie en chimie.
c)
Y(Ω)\X(Ω) 9 10 11 12 13 15 Total
8 1 0 0 0 0 0 1
9 0 1 1 0 0 1 3
11 1 0 0 1 0 0 2
15 1 0 0 0 0 0 1
16 0 0 2 0 0 0 2
17 0 0 0 2 0 0 2
Total 3 1 3 3 0 1 11
Tableau à double entée d)♣ série statistique marginale associée à X :
xi 9 10 11 12 13 15 ni 3 1 3 2 0 1
xi ∈ X(Ω) et ni est l’éffectif de xi.
♣ série statistique marginale associée à Y : yj 8 9 11 15 16 17
nj 1 2 2 1 2 2
yj ∈Y(Ω) etnj est l’éffectif de yj.
e) Déterminons les caractéristiques marginales.
♠ Pour le caractère X, on a :
¯
x= 7010 = 7 et σX2 = 101(36 + 81 + 64 + 100 + 169 + 196)−72 = 15.6
♠ Pour le caractère Y, on a :
¯
y= 7610 = 7.6et σ2Y = 101 (49 + 49 + +81 + 196 + 196 + 225)−7.62 = 21.4
L’étude des séries statistiques à un seul caractère s’avère insuffisant lorsqu’il s’agit de certains phénomènes aléatoires dépendant d’au moins deux variables. Dans cette partie, l’étude est centrée sur les séries statistiques à deux caractères quantitatifs appélés va- riables statistiques. Ces couples de variables statistiques sont répresentés sous forme de tableaux statistiques à deux dimensions souvent dénommés tableau à double entrée.
1-Présentation générale d’un tableau à double entrée
Soit une population Ω, constituée de n individus sur chacun desquels on a fait une observation concernant simultanément les variables X etY.
On suppose que X ak modalités x1,x2, ..., xk etY l modalitésy1,y2, ...,yl. L’opération préliminaire de mise en ordre des observations, consiste à classer chacun des n individus dans les k ×l sous ensenbles définis par le croisement des variables X et Y. A chaque sous ensemble correspond une case du tableau statistique à double entrée où figurent en ligne les modalités de X et en colonnes les modalités de Y. Dans chaque case, on inscrit l’effectif nij des individus présentant à la fois la modalité xi et la modalitéyj.
X\Y y1 ... yj ... yl Total x1 n11 ... n1j ... n1l n1.
... ... ... ... ... ... ...
xi ni1 ... nij ... nil ni.
... ... ... ... ... ... ...
xk nk1 ... nkj ... nkl nk.
Total n.1 ... n.j ... n.l n Tableau T
Notation : ni.=
l
X
j=1
nij effectif des individus qui ont la modalité xi de X fi. = nni. fréquence de ces individus.
n.j =
k
X
i=1
nij effectif des individus qui ont la modalité yj deY f.j = nn.j fréquence de ces individus.
fij = nnij fréquence des individus qui ont les modalités xi etyj. n =n.. =
k
X
i=1 l
X
j=1
nij effectif total de la population.
2-Séries statistiques doubles et caractéristiques marginales
• La colonne marginale du tableau T, qui contient les effectifs ni. correspondant à chaque valeur xi de la variable X, est la distribution marginale deX
Modalités de X Effectifs
x1 n1.
... ...
xi ni.
... ...
xk nk.
Total n
Le tableeau ci-dessous est la distribution de X sans tenir compte de Y. Les caractéristiques marginales de X sont :
¯ x= 1
n
k
X
i=1
ni.xi moyenne de X ou moyenne marginale deX.
σX2 = 1 n
k
X
i=1
(xi−x)¯ 2 variance de X ou variance marginale deX
• D’une façon analogue, la dernière ligne du tableau T, qui contient les effectifs n.j cor- respondant à chaque valeur yj de la variable Y, est la distribution marginale de Y.
Modalités deY Effectifs
y1 n.1
... ...
yj n.j
... ...
yl n.l
Total n
De même ce tableau est la distribution de Y sans tenir compte de X.
Les caractéristiques marginales de Y sont :
¯ y= 1
n
l
X
j=1
n.jyj moyenne de Y ou moyenne marginale deY. σY2 = 1
n
l
X
j=1
(xj−y)¯ 2 variance de Y ou variance marginale de Y.
3-Définition
Soit Ωune population d’effectif n (n ∈ N∗), sur laquelle sont définies deux caractères X et Y.Désignons par :
{x1, x2, ..., xk}, l’ensemble des modalités du caractère X, noté X(Ω),
{y1, y2, ..., yl}, l’ensemble des modalités du caractère Y , notéY(Ω), φ l’application deΩ dans R×R définie parφ(α)=(X(α), Y(α)).
On appelle effectif du couple (xi, yj), le nombre d’antécedants de ce couple par l’appli- cation φ. Cet effectif est noté nij.
On appellesérie statistique double de caractère(X, Y)l’ensemble de triplets(xi, yj, nij).
Exemple 0.6.1.
Le tableau ci-dessous donne les notes de français et de mathématiques de 10 élèves au BEP C.
Note de françaisxi 9 13 16 9 16 9 6 16 6 16
Note de mathsyj 5 13 6 5 6 5 8 6 8 6
.
• Un élève a obtenu 13 en français et en maths donc l’effectif de la modalité(13; 13) est 1.
• Deux élèves ont obtenu 6 en français et 8 en maths donc l’effectif de la modalité (6; 8) est 2.
• Trois élèves ont obtenu9 en français et 5en maths donc l’effectif du couple(9; 5) est3.
• Quatre élèves ont obtenu 16 en français et 6 en maths donc l’effectif de la modalité (16; 6) est4.
La série statistique double de caractère(X, Y)est l’ensemble{(13; 13; 1),(6; 8; 2),(9; 5; 3),(16; 6; 4)}.
Exercice d’application 0.6.1.
Le tableau ci-dessous représente la population X de la zone CEMAC et le nombre Y d’analphabètes de chacun de ces pays (tous exprimés en millions d’habitants).
Pays Cameroun RCA Congo Gabon Guinée Équatoriale Tchad
Population 13.9 3.4 2.7 1.15 0.42 7.153
Nombre d’analphabètes 3.9337 1.9584 1.43 0.38 0.08 3.43
1. -a Écrire l’ensemble des modalités du caractèreX . -b Écrire l’ensemble des modalités du caractère Y .
2. -a Déterminer la série statistique associée au caractère X.
-b)Déterminer la série statistique associée au caractère Y.
3. Écrire la série double de caractère(X, Y), chaque couple de modalités ayant pour effectif 1.
4. Calculer la moyenne x¯de X et la moyenney¯de Y. Exercice proposé
Au cours du dernier trimestre 2009, un surpermaché d’une capitale d’Afrique a dénombré les ordinateurs de marque A etB qu’il a vendus dans six secteurs de la ville.
Les resultats obtenus sont consignés dans les tableaux linéaires ci-dessous
Numéro du secteur 1 2 3 4 5 6
Nombre d’ordinateurs de marque A vendusxi 600 300 900 450 450 900 Nombre d’ordinateurs de marque B vendus yi 360 180 450 225 180 405
1. a) Écrire l’ensemble des modalités du caractèreX noté MX. b) Écrire l’ensemble des modalités du caractère Y noté MY. 2. a) Déterminer la série marginale associée au caractère X.
b) Déterminer la série marginale associée au caractère Y.
3. Écrire la série double de caractère (X;Y), chaque couple de modalités ayant pour effectif.
4. Donner la représentation statistique double dans laquelle figurent les séries statis- tiques marginales associées à X et à Y.
5. Calculer la moyenne x¯de X et la moyenney¯de Y. 6. Calculer la variance de X et de Y.
0.6.1 Nuage de points - point moyen associé à une série statis- tique double
Objectif visé : être capable de construire dans un repère donné le nuage de points associé à une série statistique.
Activité 0.6.2.
La série statistique suivante indique les notes mensuelles d’un élève aucours de cinq premiers mois de l’année scolaire numérotés de 1 à5.
M ois(xi) 1 2 3 4 5 N ote(yj) 8 9 12 12 13
1. Placer dans un repère orthogonal les points Mij de coordonnées (xi, yj) (unité : 1 cm sur l’axe (ox) ; 1 cm sur l’axe (oy)).
2. Calculer les moyennesx¯et y¯
3. Placer le pointG(¯x,y)¯ Correction 0.6.2.
1. 1 2 3 4 5 6
1 2 3 4 5 6 7 8 9 10 11 12 13
0
2. - La moyennex¯ deX est : x¯= 1+2+3+4+55 = 3 - La moyenne y¯de Y est : y¯= 8+9+12+12+13
5 = 10.8 le point moyen est G= (3; 10.8)
Pour régrouper les individus qui se ressembles (et séparer ceux qui ne se ressemble pas), il fout un "critère de ressemblance". pour cela on examine l’ensemble des infomations consernant les individus notées (xi, yi) pour le ième individu, et on imagine que chaque individu est un pointMi(xi, yi)du plan. On obtient ainsi un nuage de points dans le plan Γ ={Mi, i= 1,2, ..., n}où n est l’éffectif total de la population.
1-Définitions
- On appellenuage de pointsassocié à la série statistique double (X, Y), l’ensemble des points Mi du plan dont le couple de coordonnée est (xi, yi).
- On appellepoint moyend’un nuage denpointsMi de coordonnées(xi, yi), le point G de coordonnées(xG, yG) telles que :xG = ¯x= 1
n
n
X
i=1
xi, yG = ¯y = 1 n
n
X
i=1
yi
Remarque 0.6.1. Dans notre étude, nous faisons la convention de répresenter que les points dont les couples ont des efffectifs non nuls.
Remarque 0.6.2. Le point G est l’isobarycentre des points (Mi)1≤i≤n. Exemple 0.6.2.
Le tableau ci-dessous représente une série statistique double.
A1 A2 A3 A4 A5 xi 1 1.5 2 2.5 3 yj 2.5 3 4.5 5 9
oùAia pour coordonner(xi, yi). 1 2 3
1 2 3 4 5 6 7 8 9 10
0
A1
A2 A4
A5
A3 G
Figure 4-1
L’ensemble {A1, A2, A3, A4, A5} constitue le nuage de points associé à cette série statis- tique double. Le point moyen est G(¯x,y) = (2; 4.8).¯
2-Représentation graphique du nuage de points
Dans cette partie, il est question de ressortir les differentes méthodes de représentations de nuage de points dans un plan. Pour ce faire, nous allons distinguer troix cas differents.
1er cas.
Lorsque l’effectif nij du couple (xi, yj) est égale à 1, les éléments distincts du nuage de points sont représentés par un point physique.
Exemple 0.6.3.
En reprenant l’exemple précédent, on obtient la figure suivante.
1 2 3
1 2 3 4 5 6 7 8 9 10
0 Figure 4-2
2me cas.
Le1er cas de représentation du nuage de points ne tient pas compte du "poids" de chaque point ; c’est-à-dire de l’effectif du couple de coordonnés (xi, yj). Ainsi, lorsque l’effectif
nij du couple (xi, yj) est different, par convention on indique à droite de chaque point du nuage l’effectif de son couple de coordonnée, l’ensemble des points obtenus est appélé ensemble de points ponderés.
Exemple 0.6.4.
Considèrons le tableau statistique à double entrée suivante.
Y(Ω)\X(Ω) 6 7 8 9 10 11 12 13 14 Total
4 0 1 0 1 0 0 0 0 0 2
7 0 0 0 0 0 0 0 0 1 1
8 0 0 0 0 0 0 0 0 0 1
9 0 0 0 0 2 0 1 0 1 4
10 0 0 0 0 0 2 0 1 0 3
11 1 0 0 0 0 0 3 0 0 4
12 0 0 0 0 0 0 0 1 0 1
13 0 0 0 5 0 2 0 0 0 7
14 0 0 0 0 0 0 0 0 1 1
16 0 0 0 0 0 0 1 0 0 1
Total 1 1 1 6 2 4 5 2 3 25
La répresentation graphique du nuage des points associés à cette série statistique est :
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
0
(1) (1) (1)
(5)
(2) (2) (2)
(1) (3) (1)
(1) (1)
(1) (1) (1)
Figure 4-3 3mecas
Dans ce dernièr cas, on met en évidence le poids de chaque couple de coordonnées en représentant les points du nuage par des taches.
Chaque point du nuage est alors le centre d’un disque dont l’aire est proportionnelle à l’effectif du couple considéré.
Exemple 0.6.5.
Reprenons le tableau statistique à double entré de l’exemple précédent.
Le tableau suivant donne les differents effectifs de chaque couple (xi;yj) Effectif nij 1 2 3 4 5
Rayon du disque
Problème : comment calculer le rayon d’un disque ? - Calcul pratique du rayon d’un disque.
Choix du rayon du plus grand disque
On choisit le rayon du disque centré aux points dont les couples de coordonnées ont l’ef- fectif le plus élévé.
Dans notre exemple, c’est le couple (9; 13)dont l’effectif est 5qui convient.
Pour ce couple (9; 13) choisissons0.8 cm comme rayon du disque en ce point Calcul du rayon d’un disque ( en cm ).
Soit r le rayon du disque centré sur le point dont le couple de coordonnées a pour effectif n. L’aire de ce disque est πr2.
Les aires étant proportonnellelles aux effectifs, on a :
π×(0.8)2
4 = πrn2, d’ou r = 0.8pn
4 = 0.82 √ n
Dressons le tableau donnant les rayons des différents taches.
Effectif nij 1 2 3 4 5
Rayon du disque 0.36 0.51 0.62 0.72 0.8
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
0 Figure 4-4
Remarque 0.6.3.
Le choix du rayon centré au point dont le couple de coordonnées a l’effectif le plus élévé, se fait en fonction de la répartition des points du nuage de façon que, deux disques quelconques soient disjoints.
Exercice proposé 0.6.1.
Exercice 1
Le tableau suivant présente trois séries statistiques(xi),(yi)et(zi). On considère les séries statistiques doubles (xi;yi)et (xi;zi).
xi 1.7 1.9 2.5 2.7 3.2 yi 105 95 80 75 62 zi 110 85 75 90 57
1. Déterminer le nuage de points associé à chacune des deux séries doubles.
2. Calculer les coordonnées de leurs points moyens respectifsG1 et G2.
0.6.2 Inertie d’un nuage de point
Objectif : être capable de mesurer la dispersion des points du nuage autour du point moyen G.
Activité 0.6.3.
SoitΓ ={M1, M2, M3, M4}un nuage de point du plan où M1(1,0),M2(0,1),M3(3,1), M4(4,2).
1. Calculer la distance euclidienne de deux individus Mi et Mj. 2. En déduire la matrice des distance.
3. Calculer le centre de gravité G d’un nuage de pointsΓ.
On suppose que les points du nuage ont le même poids égal à 14. 4. Calculer les distancesd2(Mi, G)2 i∈1,2,3,4
5. En déduire la quantité :I(G) = 14(d2(M1, G)2+d2(M2, G)2+d2(M3, G)2+d2(M4, G)2) Définition 0.6.1.
La distance euclidiennede deux individus Mi etMj est donnée par : d2(Mi, Mj) =p
(xi−xj)2+ (yi−yj)2 .
A chaque nuage d’individus, on peut associé une matrice D définir par : D= (dij)0≤i≤n,0≤j≤n = (d2(Mi, Mj)0≤i≤n,0≤j≤n
Remarques 0.6.1.
– La distance euclidienne est d’autant plus petite que les deux individus sont sem- blables et d’autant plus grande qu’ils sont differents.
– A coté de la distance euclidienne, on peut définir d’autres distances (et donc d’autres matrices de distance ), par exemple :
d1(Mi, Mj) =|xi−xj| − |yi−yj| et d∞(Mi, Mj) = M ax{|xi−xj|,|yi−yj|}.
– Pour un nuage d’éffectif n, il y’a donc n(n−1)2 distance à calculer.
Définition 0.6.2.
On appelle inertie totale d’un nuage Γ ={Mi, i= 1,2, ..., n} la moyenne des carrés des distances de ses points au centre de gravité du nuage.
Autrement dit, siGest le centre de gravité deΓ, l’inertie totale deΓest, si tout les points du nuage sont de même poids égal à 1n
I(Γ) = n1(d2(M1, G)2+d2(M2, G)2+...+d2(Mn, G)2) (F)
G M1
M2
M3
M4
M5
M6
M7 M8 M9
Remarques 0.6.2.
L’inertie mesure la dispersion du nuage.
Exemple 0.6.6.
On considère les6points de l’ensembleΓ ={Mi,1≤i≤6}définis par :M1 = (−2,3), M2 = (2,1), M3 = (4,−1),M4 = (3,4), M5 = (2,6)M6 = (3,5).
1. Calculer le centre de gravité du nuage de points ; 2. Calculer l’inertie totale du nuage de points ; Solution
1. G= (−2+2+4+3+2+3
6 ;3+1−1+4+6+5
6 ) = (2,3)
2. d2(M1, G)2 = 16; d2(M2, G)2 = 4; d2(M3, G)2 = 20;d2(M4, G)2 = 2; d2(M5, G)2 = 9 et d2(M6, G)2 = 5.
Linertie totale est donnée par : I(Γ) = 16(16 + 4 + 20 + 2 + 9 + 5) = 283. 1-Ecarts entre classes
Supposons que le nuage Γ = {Mi, i = 1,2, ..., n} est décomposé en plusieures classes Γ1, Γ2,..., Γk et notons G1, G2,..., Gk les centres de gravités respectifs de chaque classes et notons p1, p2,..., pk les poids respectifs de chaque classe que l’on définit de la façon suivante : si l’on suppose que tous les individus ont le même poids égal à 1n, le poidspl de la classe Γl est égal à l’éffectif de Γl divisé parn.
De cette façon, la somme des poids de toutes les classes vaut 1
Pour mesurer la proximité ou l’ecart entre deux classesΓletΓm, il existe de nombreuses façons de procéder :on calcule par exemple la quantité M in{d(Mi, Mj), Mi ∈ Γl, Mj ∈
Γm} appelée distance du plus proche voisin ou M ax{d(Mi, Mj), Mi ∈ Γl, Mj ∈ Γm} ou simplement la distance des centres de gravité d2(Gm, Gl). Mais la mesure que l’on utilise le plus souvent appelée écart de Ward est définie par :
d(Γm,Γl) = ppmpl
l+pmd2(Gm, Gl)2 où pl et pm sont les poids des deux classes.
2-Inertie interclasse et Inertie intraclasse Activité 0.6.4.
On considère une série statistique double donc le nuage de points est(Mi,1≤i ≤6) où M1 = (1,2), M2 = (2,5), M3 = (4,7), M4 = (2,−1) M5 = (3,8),M6 = (4,9).
1. Calculer le point moyen G associé a cette série double.
2. Calculer l’inertie totale I(Γ) de cette série double.
On pose Γ1 ={Mi,1≤i≤3} etΓ2 ={Mi,4≤i≤6}
3. Calculer les points moyens G1 de Γ1 etG2 de Γ2 4. Déterminer l’inertie totale I(Γ1) et I(Γ2).
En déduire la valeur nombre réel A=p1I(Γ1) +p2I(Γ2) oùpi = 36. 5. Calculer le nombre réel B = p1
1d2(G1, G)2+p1
2d2(G2, G)2) oùpi = 36. 6. Vérifier que I(Γ) =A+B
1) Inertie intraclasse
Supposons que le nuage Γ est composé des k classes Γ1, Γ2,..., Γk.
I(Γ1),I(Γ2), ...,I(Γk)les inerties de chaque classe ; calculées par rapport à leurs centres de gravitésG1, G2,..., Gk respectifs. La moyenne pondérée de ces inertie est appelée inertie intraclasse. C’est-à-direIintra =p1I(Γ1) +p2I(Γ2) +...+pkI(Γk)
Les inerties des classes I(Γ1), I(Γ2), ..., I(Γk) sont simplement calculées avec la formule (F) de la définition (0.5.2) où l’on remplace le centre de gravitéG par celui de la classe G1, G2,... et l’éffectif n par celui de la classe.
2) Inertie interclasse
L’inertie totale d’un nuage de point n’est generalement pas égale à la somme pondérée des inerties des classes qui le composent, c’est-à-dire à l’inertie interclasse (sauf dans le cas où les centres de gravité de toutes les classes sont confondus).
Dans ce cas il faut prendre en compte la dispersion des classes par rapport au centre de gravité du nuage.On définit alors l’inertie interclasse par :
Iinter =p1d2(G1, G)2+p2d2(G2, G)2+...+pkd2(Gk, G)2 Théorème 0.6.1.
L’inertie totale d’un nuage de points composé de differentes classes est la somme de son inertie intraclasse et de son inertie interclasse.
C’est-à-dire I(Γ) =I(Γ1S Γ2S
...S
Γk) =Iintra+Iinter
Cette resultat est appelé décomposition de Huygens.
Démonstration
Exemple 0.6.7.
On considère les6points de l’ensembleΓ ={Mi,1≤i≤6}définis par :M1 = (−2,3), M2 = (2,1), M3 = (4,−1),M4 = (3,4), M5 = (2,6)M6 = (3,5).
1. Calculer le centre de gravité du nuage de points ; 2. Calculer l’inertie totale du nuage de points ; 3. Calculer l’inertie interclasse du nuage de points ; 4. Calculer l’inertie intraclasse du nuage de points ; 5. Vérifier le théorème de Huygens.
Solution
1. G= (−2+2+4+3+2+3
6 ;3+1−1+4+6+5
6 ) = (2,3)
2. d2(M1, G)2 = 16; d2(M2, G)2 = 4; d2(M3, G)2 = 20;d2(M4, G)2 = 2; d2(M5, G)2 = 9 et d2(M6, G)2 = 5.
Linertie totale est donnée par : I(Γ) = 16(16 + 4 + 20 + 2 + 9 + 5) = 283 Divisons l’ensemble Γ en deux sous ensembles de même cardinal : Γ1 ={Mi,1≤i≤3} etΓ2 ={Mi,4≤i≤6}
Le point moyen de Γ1 estG1 = (43,1)et celui de Γ2 estG2 = (83,5)
d2(M1, G1)2 = 1369 ,d2(M2, G1)2 = 49,d2(M3, G1)2 = 1009 ,d2(M4, G2)2 = 109,d2(M5, G2)2 =
13
9, d2(M6, G2)2 = 19.
I(Γ1) = 13(1369 +49 + 1009 = 809 et I(Γ2) = 13(109 +139 +19 = 89
3. L’inertie intraclasse est donnée par : Iintra = 12I(Γ1) +12I(Γ2) = 12 ×809 +12× 89 = 449 En plus d2(G1, G)2 = 409 et d2(G2, G)2 = 409
4. L’inertie interclasse est donnée par : Iinter = 12 ×d2(G1, G)2+ 12 ×d2(G2, G)2 = 409 5. Vérification : Iinter+Iintra = 409 +449 = 849 = 283 =I(Γ)
Exercice d’application 0.6.2.
0.6.3 Application du théorème de Huygens : covariance d’une série statistique double
Activité 0.6.5.
Le tableau ci-dcessous donne la répartition des bénéfices annuels (en milliers de francs) des exploitations agricoles d’une région suivant leur superficie (en diziane d’hectares).
taille xi 1 2 4 1 3 4 3 3 Bénéfice yi 2 5 7 -1 8 9 7 3
1. Calculerx¯et y.¯
2. Recopier et compléter le tableau suivant.
taille xi 1 2 4 1 3 4 3 3
Bénéfice yi 2 5 7 -1 8 9 7 3 Total xi−x¯
yi−y¯
(xi−x)(y¯ i−y)¯
3. Calculer le nombre réel C = 1 N
n
X
i=1
(xi−x)(y¯ i−y).¯
4. Démontrer que C =
n
X
i=1
xiyi−x¯¯y
Définition 0.6.3.
On appelle Covariance d’une série statistique double (X, Y) répresentée par n points, le nombre noté Cov(X, Y) ouσXY et définie par :Cov(X, Y) = 1
N
n
X
i=1
(xi−x)(y¯ i−y)¯
Exemple 0.6.8.
Le tableau ci-dessous représente une série double(X, Y).
xi 1 1.5 2 2.5 3 yi 2.3 3 4.5 5 9
La moyenne x¯de X estx¯= 1+1.5+2+2.5+3
5 = 2 et celle de Y est y¯= 2.5+3+4.5+5+9
5 = 4.8
La covariance est donnée par : Cov(X, Y) = 2.5+4.5+9+12.5+27
5 −9.6 = 1.5 Propriétés 0.6.1.
1. Cov(X, Y) =
n
X
i=1
xiyi−x¯y¯(Formule de Huygens-König) En effet, x¯=
n
X
i=1
xi ⇐⇒Nx¯=
n
X
i=1
xi ety¯=
n
X
i=n
yi ⇐⇒ Ny¯=
n
X
i=1
yi.
Cov(X, Y) = 1 N
n
X
i=1
(xi−x)(y¯ i−y)¯
= 1
N(
n
X
i=n
xiyi−xiy¯−yix¯+ ¯x¯y)
= 1
N(
n
X
i=1
xiyi−Nx¯¯y−Nx¯¯y+Nx¯¯y)
= 1
N
n
X
i=n
xiyi−x¯y¯
2. Cov(X, Y) = Cov(Y, X) la covariance est symétrique 3. Cov(X, X) = var(X)
4. Si l’on multiplie par un même nombre toutes les valeurs de l’une des variables, la covariance est multipliée par ce nombre.
5. La covariance estnulle siX etY sontindépendants; mais Cov(X, Y)n’implique pas que X etY sont indépendants.
6. La covariance depend des unités choisies pour mesurer les variables X et Y : on vérifie facilement que
Cov(aX +b, cY +d) =acCov(X, Y) pour tous réels a, b, c, d
7. SoitσX (respσY) l’écart type deX (respY). Alors|Cov(X, Y)| ≤σXσY et l’égalité a lieu si et seulement si les points du nuage sont alignés.
0.6.4 Minimum d’inertie
A- Ajustement affine par la méthode des moindres carés Activité 0.6.6. .
Objectif visé : déterminer l’unique droite (∆) d’équation y = ax+b qui passe le plus près possible des points de nuage.
Le graphique ci-dessous représente le nuage des points d’une sétie double (X, Y)
P1
M1
P2
M2 P3
M3
Pi
Mi
Mi−1
Pi−1 (∆)
O i
j
On poseS =
n
X
i=1
(MiPi)2
1. Calculer la distanceMiPi en fonction dexi et yi. 2. En déduire que S =
n
X
i=1
(yi−axi)2−2b
n
X
i=1
(yi−axi) +nb2.
3. On posef(b) = S. Calculer f0(b)et en déduire la valeur deb pour laquelle f admet un minimum.
4. Justifier que la droite qui rend minimale la somme S passe par le point moyen G(¯x,y).¯
5. On poseb = ¯y−ax¯etS =h(a) =
n
X
i=1
(yi−y)¯2−2a
n
X
i=1
(yi−y)(x¯ i−x) +¯ a2
n
X
i=1
(xi−x)¯ 2 Calculer h0(a)et en déduire la valeur de a pour laquelle h admet un minimum.
6. Justifier que a= Cov(X,YV(X) ) = (σσXY
X)2.
Nous considérons un nuage de points (Mi(xi, yi))1≤i≤n et (∆) une droite d’équation y=ax+b
Définition
– Nous appelons somme des résidus associées à la droite (∆) le nombre réel S définie par : S =
n
X
i=1
(yi −(axi +b))2
Si Pi désigne le point d’abscisse xi sur la droite (∆), nous avons S =
n
X
i=1
(MiPi)2. – On appelle méthode des moindres carrés la méthode qui consiste à rechercher
les coefficients a etb tels que la somme S soit minimale.
Principe de la méthode des moindres carrés
On peut mesurer la distance d’une droite(∆) à un point du nuage en calculant la somme des carrés des distances MiPi où pour chaque i,Pi est le projecté deMi sur la droite(∆) parallèlement à l’axe (O,~j).
Plus cette somme sera petite et plus la droite sera proche du nuage de points.
On procédera suivant la demarche :
– Première étape : chercher une équation de droite(y=ax+b) qui passe le plus près des points du nuage.
– Deuxième étape : calculer pour chaque Mi la valeurMiPi2 = (yi−axi −b)2. – Troixième étape : chercher à minimiser la somme des MiPi2.
Mi
Pi axi+b
yi
0
(∆)
i j
Figure 3
Droite de régression
Définition
• Soit(∆) une droite d’ajustement d’équation :y =ax+b,Mi(xi;yi)un point du nuage, Ai le projecté de Mi sur la droite (∆)
On dit que (∆) est la droite de régression de Y en X lorsque la somme
n
X
i=1
MiA2i est minimale.
• (∆0) une droite d’ajustement d’équation :x=a0y+b0, Mi(xi;yi)un point du nuage, Bi le projecté de Mi sur la droite (∆0)
On dit que (∆0) est la droite de régression de X en Y lorsque la somme
n
X
i=1
MiBi2 est minimale.
Rappel : la droite de « régression linéaire » passe par le point moyenG= (¯x,y)¯ Théorème 0.6.2.
Il existe une unique droite(∆)d’équationy=ax+bajustant la série statistique double Γn par la méthode de moindre carrés, ses coefficients sont donnés par :
a= COVV ar(X(X,Y)) b= ¯y−a¯x Démonstration
Nous allons montrer qu’il existe une seule droite (∆) donc un couple unique (a, b) ) telle que la somme des nombres nij[yj −(axi+b)]2 soit minimal
Considérons la droite (∆) :y =ax+b
Calculons la valeur des écart ei des points observés à cette droite, mésurés parallelement
à l’axe des ordonnées :
ei =yi−axi−b pouri= 1,2,3, ..., N
En désignant par S(a, b) la somme des carrés deei on obtient S(a, b) =
N
X
i=1
e2i =
N
X
i=1
(yi−axi−b)2
S(a, b)est une fonction dependant des coefficient a etb de la droite (∆)
La droite des moindres carrés carrespond aux valeurs des coefficients a et b qui rendent minimale cette quantité. Determinons ces valeurs de a etb.
•Determinons pour a fixé la valeur de b qui minimise S(a, b).
considérons la fonction suivante : f : R → R
b 7→ f(b), f(b) =Pn
i=1(yi−axi−b)2 f est une fonction polynôme du second degré donc dérivable sur R.
Si f admet un minimum, alors f0(b) = 0 On a :f0(b) = −2
N
X
i=1
(yi−axi−b)f0(b) = 0 ⇐⇒
N
X
i=1
yi−a
N
X
i=1
xi−
N
X
i=1
b = 0
⇐⇒
N
X
i=1
yi−a
N
X
i=1
xi−N b= 0
⇐⇒ 1 N
N
X
i=1
yi− a N
N
X
i=1
xi+b = 0
D’ou b = ¯y−a¯x avecy¯= 1 N
N
X
i=1
yi; x¯= 1 N
N
X
i=1
xi
Substituons cette valeur de b dans l’expression de S(a, b) on obtient : g(a) =
N
X
i=1
[yi−axi−(¯y−ax)]¯ 2 =
N
X
i=1
[(yi−y)¯ −a(xi−x)]¯ 2 g(a) est la valeur du mini- mum partiel de S lorsque a est fixe.
• Determinons maintenant la valeur de a qui minimise g(a).
g est une fonction polynôme du second degré donc dérivable sur R. Si g admet un minimum, alorsg0(a) = 0. On a :
g0(a) =−2
N
X
i=1
(xi −x)[(y¯ i−y)¯ −a(xi −x)]¯
g0(a) = 0 ⇐⇒
N
X
i=1
(xi−x)[(y¯ i−y)¯ −a(xi−x)] = 0¯
⇐⇒
N
X
i=1
(xi−x)(y¯ i−y)¯ −a
N
X
i=1
(xi−x)¯ 2 = 0
Donc a= PN
i=1(xi−x)(y¯ i−y)¯ PN
i=1(xi−x)¯ 2 = σXY
σX2 = Cov(X, Y) V ar(X)
Propriété 0.6.1.
Soit (xi, yi)1≤i≤n une série statistique à deux caractères X etY d’effectif N telles que V(X)6= 0 et V(Y)6= 0 .
¯
x la moyenne de la série de caractère X ety¯la moyenne de la série de caractère Y La droite de moindres carrés(∆) ou droite de régression deY enX est l’unique droite qui constitue le meilleur ajustement de nuage.
Elle a pour équation : y=ax+b avec : a = Cov(X,YV(X) );b = ¯y−a¯x Cette droite passe par le point moyen G(¯x,y).¯
La droite de régression de X enY est l’unique droite (∆0)qui a pour équation : x=a0y+b0 avec : a0 = Cov(X,YV(Y) ); b0 = ¯x−ay¯
Cette droite passe par le point moyen G(¯x,y)¯ Remarques 0.6.3.
1. a = Cov(X,YV(X) ) est le coefficient directeur de la droite de régression de Y en X. Une équation de cette droite est : y−y¯= Cov(X,YV(X) )(x−x).¯
2. a0 = Cov(X,YV(X) ) est le coefficient directeur de la droite de régression de X en Y. Une équation de cette droite est : x−x¯= Cov(X,YV(Y) )(y−y).¯
Théorème 0.6.3. Les droites de régression (∆) et (∆0) sont confondues si et seulement si (σXY)2 = (σX)2(σY)2, si et seulement si tous les points du nuage sont alignés.
Demonstraction
CommeGest à la fois sur(∆)et sur(∆0), les deux droites sont confondues si et seulement si leurs coefficients directeurs sont égaux
C’est-à-dire (σσXY
X)2 = (σσY)2
XY
C’est-à-dire σXY2 = (σX)2(σY)2.
D’où tous les points du nuage sont alignés (d’après 1)
Exemple 0.6.9.
Le tableau suivant donne la tension artérielle moyenney en fonction de l’âge x d’une population.
Age(xi) 36 42 48 54 60 66
Tension(yi) 11.8 14 12.6 15 15.5 15.1
Réprésentons le nuage de points associé à cette série statistique, puis traçons la droite de