Table des matières

(1)

STATISTIQUE TERMINALE C 1

0.1 Dénomination de la ressource et des contributeurs . . . 1

0.2 Les objectifs pédagogiques . . . 1

0.2.1 Les objectifs pédagogiques généraux . . . 1

0.2.2 Les objectifs pédagogiques spécifiques . . . 1

0.3 Liens avec les autres parties du programme . . . 2

0.4 Introduction . . . 2

0.5 Rappel sur une série statistique simple . . . 2

0.6 Distributions ou séries statistiques doubles . . . 7

0.6.1 Nuage de points - point moyen associé à une série statistique double 13 0.6.2 Inertie d’un nuage de point . . . 18

0.6.3 Application du théorème de Huygens : covariance d’une série statistique double . . . 23

0.6.4 Minimum d’inertie . . . 24

0.6.5 Autres ajustements . . . 34

0.7 Exercices . . . 35

0.8 Bibliographie et Webographie . . . 35

0.8.1 Bibliographie . . . 35

0.8.2 Webographie . . . 35

(2)

♣

0.1 Dénomination de la ressource et des contributeurs

• Titre de la ressource : Statistique en Terminale C

• Nom de l’étudiant : Ngouyap Njupouen Abdou Gafar

• Nom de l’encadreur de l’ENS : Dr Fotso Siméon

• Nom de l’inspecteur : Mne Kamga Alice

• Nom de l’encadreur du lycée : Mr Tsouleu Pascal Péguil

0.2 Les objectifs pédagogiques

0.2.1 Les objectifs pédagogiques généraux

– être capable d’analyser les données numériques relatives à un ensemble d’objets et de tirer une conclusion.

– être capable d’extraire l’essentiel de l’information contenue dans le tableau de don- nées et d’en fournir une représentation afin de donner une interprétation.

– être capable de resumer les données collectés par quelques caractéristiques.

– interpréter ces caractéristiques.

0.2.2 Les objectifs pédagogiques spécifiques

A la fin de la leçon l’apprenant doit être capable de : – Consolider les acquis de la classe de première.

– Reconnaître les séries statistiques à deux caractères.

– Ressortir les séries statistiques marginales et caractéristiques marginaux de la série statistique double.

(3)

– Construire un nuage de points associé à une série statistique double.

– Déterminer l’inertie d’un nuage de point.

– Rappeler le théorème de Huygens et de l’appliquer.

– Déterminer le minimum d’inertie.

0.3 Liens avec les autres parties du programme

Les parties du programme en lien avec la statistique en classe de Terminale C sont .

– La géometrie analytique dans le plan : elle permet de mieux constriure le nuage de points et de faire l’ajustement linéaire.

– Notion de fonction exponentielle, logarithme et puissance pour l’ajustement non linéaire.

– Etude de fonction : elle permet de mieux assimilé le traçage des droites de régression.

–

0.4 Introduction

Dans le langage courant le mot « statistiques », au pluriel, désigne des collections de chiffre, présentées souvent sous forme de tableaux ou sous forme de graphiques, et qui regroupent les observations effectuées sur des faits nombreux relatifs à un même phénomène. Par contre la « statistique », au singulier, sera constituée par l’ensemble de procédés ou de méthodes qui auraient pour but l’étude mathématique des statistiques. De ces deux définitions nous dirons que la statistique est l’outil avec lequel on travaille une matière première constituée par les statistiques. Nous débuterons ce cours par un rappel sur les statistiques , ensuite les séries à deux variables dans lequel le travail consistera à représenter la série statistique par un nuage de point, calculer l’inertie d’un nuage de point, appliquer le théorème de Huygens aux séries statistiques doubles et enfin calculer le minimum d’inertie.

0.5 Rappel sur une série statistique simple

Activité 0.5.1.

Objectif visé: consolider les acquis sur les séries statistiques simples.

Le tableau ci-dessous donne la répartition des notes sur 20régroupées en classe, obtenues

(4)

par 67élèves de la classe de terminale C.

Classe de note(x_i) [2, 4[ [4, 6[ [6, 8[ [8, 10[ [10, 12[ Total

Effectif(n_i) 13 23 21 6 4 67

1. Déterminer la classe modale.

2. Compléter le tableau ci-dessous.

Classe de note(x_i) [2, 4[ [4, 6[ [6, 8[ [8, 10[ [10, 12[ Total

Effectif(ni) 13 21 6 4 67

amplitude Fréquence

centre de la classe(c_i)

Effectif cumulé croissant(ECC) Effectif cumulé decroissant(ECD)

3. Calculer la moyenne de cette série statistique . 4. Calculer la médiane de cette série statistique.

5. Construire l’histogramme de cette série statistique.

6. Construire dans le même répère le diagramme des effectifs cumulés croissants et celui des effectifs cumulés décroissants. En déduire graphiquement la médiane de cette série statistique.

7. Calculer la variance et l’écart type de cette série statistique.

Correction 0.5.1.

1. La classe modale est[4,6[, car elle possède l’effectif maximal.

2.

Classe de note(c_i) [2, 4[ [4, 6[ [6, 8[ [8, 10[ [10, 12[ Total

Effectif(n_i) 13 23 21 6 4 67

Fréquence 0.194 0.343 0.313 0.089 0.059 0.999

centre de la classe(x_i) 3 5 7 9 11

Effectif cumulé croissant(ECC) 13 36 57 63 67 Effectif cumulé decroissant(ECD) 67 54 31 10 4

n_ic_i 39 115 147 54 44 399

nic²_i 117 575 1029 486 484 2691

(5)

3. - La moyenne(m) est donnée par :

m =

k

X

i=1

n_ix_i

n = ³⁹⁹₆₇ = 5.95donc m=5.95 . 4. Calcul de la médiane : notonsMe la médiane

soit f la fonction de répartition définie sur l’intervalle [4,6[.

On a f(M_e) = ⁶⁷₂ = 33.5 et13< f(M_e)<36, implique 4≤M_e <6.

Par application des fonctions affines, on en déduit que :

f(Me)−13

Me−4 = ³⁶⁻¹³₆₋₄ c’est-à-dire _M^20.5

e−4 = ²³₂ d’ou M_e = 5.76.

5. Histogramme

L’histogramme est constitué d’une suite de rectangle dont la base est l’amplitude de chaque classe et la hauteur est l’effectif de la classe correspondante

2 4 6 8 10 12

x

4 8 12 16 20 24 y

0

6. Construisons dans un repère orthogonal les points de coordonnées : (2; 0),(4; 13),(6; 36),(8; 57),(10; 63),(12; 67)

points dont les abscisses sont égales aux bornes supérieures des classes, sauf pour le premier point, et dont les ordonnés sont les effectifs cumulés croissants correspon- dants.

En joignant ces points par les segments de droites, nous obtenons le polygone des

(6)

effectifs cumulés croissants de la distribution donnée.

Construisons également dans le même repère les points de coordonnées : (2; 67),(4; 54),(6; 31),(8; 10),(10; 4),(12; 0)

Les abscisses de ces points étant égales aux bornes inférieures des classes, sauf pour le dernier point, et dont les ordonnées sont les effectifs cumulés décroissants corres- pondants.

En joignant ces points par des segments de droite nous obtenons le polygone des effectifs cumulés décroissants. La médiane est l’abscisse du point d’intersection des deux courbes des effectifs cumulés croissants et décroissants.

2 4 6 8 10 12

x

10 20 30 40 50 60 67 y

0 Me

7. Calcul de la variance et l’écart type :

σ_X² =

k

X

i=1

n_ix²_i

N −m¯² = ²⁶⁹¹₆₇ −5.95² = 4.761; donc σ²_X=4.761 l’écart type est donné par : σ =p

σ²_X =√

4.761; donc σ=2.182

La représetation des séries statistiques par des tableaux traduit de façon insuffisante les variables étudiées, surtout lorsque les valeurs prises par les variables sont nombreuses. Il est cependant souhaitable de caractériser, de résumer une série statistique par quelques nombres simple . Nous nommerons caractéristiques(ou paramètres) les nombres en ques- tions. Ces caractéristiques sont au nombre de deux :

i) Caractéristiques de position

Soit ([ai−1;a_i[, n_i)1≤i≤n une série statistique d’éffectif total N.

– Une classe est un intervalle sémi-fermé [a, b[.

– Le centre de la classe [a, b[ est le nombre ^a+b₂ .

(7)

– La classe modale de X : toute classe d’effectif(ou de fréquence) maximal.

– Le mode est la valeur de la variable qui présente l’effectif le plus élevé(ou la fré- quence la plus élevée).

– La médiane est le nombre réel Me tel que le nombre d’individus de modalités supérieures ou égales à M_e et le nombre d’individus de modalités inférieures ou égales à M_e soient tous deux au moins égaux à ^N₂

– La moyenne arithmétiqueoumoyenne du caractère X est le réel notéx, défini¯ par : x¯= 1

N

k

X

i=1

n_ix_i =

k

X

i=1

f_ix_i, où x_i est le centre de la classe [ai−1;a_i[ ii) Caractéristiques de dispersion

Soit ([ai−1;a_i[, n_i)1≤i≤n une série statistique d’éffectif total N et de moyenne x.¯ Pour tout entier tel que 1≤i≤n, on désigne par x_i le centre de la classe [ai−1;a_i[.

– L’écart moyen est le nombre réel emtel que : em = 1 N

n

X

i=1

ni|xi−x|.¯

– La variance du caractère X noté σ_X², est la moyenne des carrés des écarts des valeurs de la variable à leur moyenne arithmétique. En d’autre terme c’est le nombre réel positif notée σ_X² et défini par : σ_X² = 1

N

k

X

i=1

ni(xi−x)¯ ² =

k

X

i=1

fi(xi −x)¯ ². – L’écart type du caractère X désigné par σ, est la racine carrée de la variance

c’est-à-dire σ =p σ_X² .

Les paramètres qui permettent de représenter les resultats statistiques sous forme de graphiques.

Soit m un nombre réel

– On appelleeffectif cumulé croissant(e_c)de la modalitém, la somme des effectifs des modalités inférieures ou égale à m. On dit aussi que c’est l’effectif de l’intervalle ]− ∞;m];

– On appelle effectif cumulé décroissant(e_d) de la modalité m, la somme des effectifs des modalités supérieures ou égale à m. On dit aussi que c’est l’effectif de l’intervalle [m; +∞[;

– On appelle fréquence cumulée décroissante de m, le quotient de son effectif cumulé décroissant par l’effectif total ;

– On appellefréquence cumulée croissantedem, le quotient de son effectif cumulé croissant par l’effectif total ;

– On appelle diagramme ou polygonne des effectifs cumulés croissants, une ligne brisée qui s’obtient en joignant tous les points de coordonnées (m;e_c).

Le plan étant muni d’un repère orthogonal ; m désigne une modalité ; e_c son

(8)

effectif cumulé croissant ; ed son effectif cumulé décroissant.

– On appellediagramme ou polygonne des effectifs cumulés décroissants, une ligne brisée qui s’obtient en joignant tous les points de coordonnées (m;e_d)

– Une variable statistique est ditdiscret, lorsqu’elle prend un nombre fini de valeurs : par exemple le nombre de voiture par famille au Cameroun .

– Une variable statistique est ditcontinue, lorsqu’elle prend des valeurs quelconques.

Exercice proposé 0.5.1.

Le tableau suivant donne le répartition en classe d’amplitude 4, le poids(en kg) de 45 individus.

Classe [2, 6[ [6, 10[ [10, 14[ [14, 18[ [18, 22[ [22, 26[

Effectif(n_i) 3 8 10 15 7 2

1. Completer le tableau ci-dessous.

Classe [2, 6[ [6, 10[ [10, 14[ [14, 18[ [18, 22[ [22, 26[

Effectif(ni) 3 8 10 15 7 2

centre de la classe(xi)

Effectif cumulé croissant(ECC) Effectif cumulé decroissant(ECD)

2. Déterminer la classe modale et le mode de cette série statistique.

3. Calculer la médiane de cette distribuion

i-par calcul, en s’appuyant sur les effectifs cumulés croissants ; ii-par calcul, à partir des effectifs cumulés décroissants,

iii-par le graphique, en utilisant la courbe cumulative croissante 4. Calculer la moyenne arithmétique de cette série statistique.

5. Calculer la variance et l’écart type.

0.6 Distributions ou séries statistiques doubles

Objectif visé : être capable d’interpréter une série statistique double et réssortir un lien entre ses variables.

Activité 0.6.1.

(9)

Dans une classe de terminaleC, on relève les notes de 10 élèves en mathématiques et en chimie. On obtient les résultats suivants :

Elève A B C D E F G H I J

Note de maths 12 11 9 10 15 11 12 9 16 12 Note de chimie 17 16 8 13 9 9 17 10 11 11

Tableaux linéaires Désignons par :

Ω : la population étudiée c’est-à-dire l’ensemble de10 élèves.

X : le caractère "note obtenue en mathématiques".

Y : le caractère "note obtenue en chimie".

X(Ω) et Y(Ω) l’ensemble des modalités du caractère X etY respectivement.

a) Déterminer X(Ω), Y(Ω),X(A), X(G), Y(E) etY(I).

b)Combien d’élève ont obtenu 11en maths et 16en chimie.

c)À l’aide du tableau precedent, recopie et completer le tableau ci-après.

X(Ω)\XY(Ω) 9 10 11 12 13 15 Total

8 1 0 0 0 1

9 0 1 1 0

11 1 0 1 0 0 2

15 0 0 1

16 0 0 2 0 0

17 0 2 2

Total 3 3 0 1

Tableau à double entrée

Séries statistiques marginales et caractéristiquee marginaux.

d) Á partir du tableau ci-dessous, recopier et compléter les tableaux suivants ..

xi 9 10 11 12 13 15 ni

x_i ∈ X(Ω) et n_i est l’éffectif de x_i. y_j 8 9 11 15 16 17

n_j

y_j ∈Y(Ω) etn_j est l’éffectif de y_j.

e) Déterminer la moyenne et la variance associées aux caractères X etY respectivement.

Correction 0.6.1.

(10)

a) X(Ω) ={9,10,11,12,13,15},Y(Ω) ={8,9,11,15,16, ,17}, X(A) = 12,X(G) = 17, Y(E) = 11,Y(I) = 16.

b) 2élèves ont obtenus 11en mathématiques et 16en chimie en chimie.

c)

Y(Ω)\X(Ω) 9 10 11 12 13 15 Total

8 1 0 0 0 0 0 1

9 0 1 1 0 0 1 3

11 1 0 0 1 0 0 2

15 1 0 0 0 0 0 1

16 0 0 2 0 0 0 2

17 0 0 0 2 0 0 2

Total 3 1 3 3 0 1 11

Tableau à double entée d)♣ série statistique marginale associée à X :

x_i 9 10 11 12 13 15 n_i 3 1 3 2 0 1

x_i ∈ X(Ω) et n_i est l’éffectif de x_i.

♣ série statistique marginale associée à Y : y_j 8 9 11 15 16 17

n_j 1 2 2 1 2 2

y_j ∈Y(Ω) etn_j est l’éffectif de y_j.

e) Déterminons les caractéristiques marginales.

♠ Pour le caractère X, on a :

¯

x= ⁷⁰₁₀ = 7 et σ_X² = ₁₀¹(36 + 81 + 64 + 100 + 169 + 196)−7² = 15.6

♠ Pour le caractère Y, on a :

¯

y= ⁷⁶₁₀ = 7.6et σ²_Y = ₁₀¹ (49 + 49 + +81 + 196 + 196 + 225)−7.6² = 21.4

L’étude des séries statistiques à un seul caractère s’avère insuffisant lorsqu’il s’agit de certains phénomènes aléatoires dépendant d’au moins deux variables. Dans cette partie, l’étude est centrée sur les séries statistiques à deux caractères quantitatifs appélés variables statistiques. Ces couples de variables statistiques sont répresentés sous forme de tableaux statistiques à deux dimensions souvent dénommés tableau à double entrée.

(11)

1-Présentation générale d’un tableau à double entrée

Soit une population Ω, constituée de n individus sur chacun desquels on a fait une observation concernant simultanément les variables X etY.

On suppose que X ak modalités x₁,x₂, ..., x_k etY l modalitésy₁,y₂, ...,y_l. L’opération préliminaire de mise en ordre des observations, consiste à classer chacun des n individus dans les k ×l sous ensenbles définis par le croisement des variables X et Y. A chaque sous ensemble correspond une case du tableau statistique à double entrée où figurent en ligne les modalités de X et en colonnes les modalités de Y. Dans chaque case, on inscrit l’effectif n_ij des individus présentant à la fois la modalité x_i et la modalitéy_j.

X\Y y₁ ... y_j ... y_l Total x₁ n₁₁ ... n_1j ... n_1l n_1.

... ... ... ... ... ... ...

x_i n_i1 ... n_ij ... n_il n_i.

... ... ... ... ... ... ...

x_k n_k1 ... n_kj ... n_kl n_k.

Total n_.1 ... n_.j ... n_.l n Tableau T

Notation : n_i.=

l

X

j=1

n_ij effectif des individus qui ont la modalité x_i de X fi. = ⁿ_n^i. fréquence de ces individus.

n_.j =

k

X

i=1

n_ij effectif des individus qui ont la modalité y_j deY f_.j = ⁿ_n^.j fréquence de ces individus.

f_ij = ⁿ_n^ij fréquence des individus qui ont les modalités x_i ety_j. n =n.. =

k

X

i=1 l

X

j=1

nij effectif total de la population.

2-Séries statistiques doubles et caractéristiques marginales

• La colonne marginale du tableau T, qui contient les effectifs n_i. correspondant à chaque valeur x_i de la variable X, est la distribution marginale deX

(12)

Modalités de X Effectifs

x₁ n_1.

... ...

xi ni.

... ...

xk nk.

Total n

Le tableeau ci-dessous est la distribution de X sans tenir compte de Y. Les caractéristiques marginales de X sont :

¯ x= 1

n

k

X

i=1

n_i.x_i moyenne de X ou moyenne marginale deX.

σ_X² = 1 n

k

X

i=1

(x_i−x)¯ ² variance de X ou variance marginale deX

• D’une façon analogue, la dernière ligne du tableau T, qui contient les effectifs n_.j correspondant à chaque valeur y_j de la variable Y, est la distribution marginale de Y.

Modalités deY Effectifs

y₁ n_.1

... ...

y_j n_.j

... ...

y_l n_.l

Total n

De même ce tableau est la distribution de Y sans tenir compte de X.

Les caractéristiques marginales de Y sont :

¯ y= 1

n

l

X

j=1

n_.jy_j moyenne de Y ou moyenne marginale deY. σ_Y² = 1

n

l

X

j=1

(x_j−y)¯ ² variance de Y ou variance marginale de Y.

3-Définition

Soit Ωune population d’effectif n (n ∈ N^∗), sur laquelle sont définies deux caractères X et Y.Désignons par :

{x₁, x₂, ..., x_k}, l’ensemble des modalités du caractère X, noté X(Ω),

(13)

{y1, y2, ..., yl}, l’ensemble des modalités du caractère Y , notéY(Ω), φ l’application deΩ dans R×R définie parφ(α)=(X(α), Y(α)).

On appelle effectif du couple (x_i, y_j), le nombre d’antécedants de ce couple par l’application φ. Cet effectif est noté nij.

On appellesérie statistique double de caractère(X, Y)l’ensemble de triplets(x_i, y_j, n_ij).

Exemple 0.6.1.

Le tableau ci-dessous donne les notes de français et de mathématiques de 10 élèves au BEP C.

Note de françaisx_i 9 13 16 9 16 9 6 16 6 16

Note de mathsy_j 5 13 6 5 6 5 8 6 8 6

.

• Un élève a obtenu 13 en français et en maths donc l’effectif de la modalité(13; 13) est 1.

• Deux élèves ont obtenu 6 en français et 8 en maths donc l’effectif de la modalité (6; 8) est 2.

• Trois élèves ont obtenu9 en français et 5en maths donc l’effectif du couple(9; 5) est3.

• Quatre élèves ont obtenu 16 en français et 6 en maths donc l’effectif de la modalité (16; 6) est4.

La série statistique double de caractère(X, Y)est l’ensemble{(13; 13; 1),(6; 8; 2),(9; 5; 3),(16; 6; 4)}.

Exercice d’application 0.6.1.

Le tableau ci-dessous représente la population X de la zone CEMAC et le nombre Y d’analphabètes de chacun de ces pays (tous exprimés en millions d’habitants).

Pays Cameroun RCA Congo Gabon Guinée Équatoriale Tchad

Population 13.9 3.4 2.7 1.15 0.42 7.153

Nombre d’analphabètes 3.9337 1.9584 1.43 0.38 0.08 3.43

1. -a Écrire l’ensemble des modalités du caractèreX . -b Écrire l’ensemble des modalités du caractère Y .

2. -a Déterminer la série statistique associée au caractère X.

-b)Déterminer la série statistique associée au caractère Y.

3. Écrire la série double de caractère(X, Y), chaque couple de modalités ayant pour effectif 1.

(14)

4. Calculer la moyenne x¯de X et la moyenney¯de Y. Exercice proposé

Au cours du dernier trimestre 2009, un surpermaché d’une capitale d’Afrique a dénombré les ordinateurs de marque A etB qu’il a vendus dans six secteurs de la ville.

Les resultats obtenus sont consignés dans les tableaux linéaires ci-dessous

Numéro du secteur 1 2 3 4 5 6

Nombre d’ordinateurs de marque A vendusx_i 600 300 900 450 450 900 Nombre d’ordinateurs de marque B vendus y_i 360 180 450 225 180 405

1. a) Écrire l’ensemble des modalités du caractèreX noté M_X. b) Écrire l’ensemble des modalités du caractère Y noté M_Y. 2. a) Déterminer la série marginale associée au caractère X.

b) Déterminer la série marginale associée au caractère Y.

3. Écrire la série double de caractère (X;Y), chaque couple de modalités ayant pour effectif.

4. Donner la représentation statistique double dans laquelle figurent les séries statistiques marginales associées à X et à Y.

5. Calculer la moyenne x¯de X et la moyenney¯de Y. 6. Calculer la variance de X et de Y.

0.6.1 Nuage de points - point moyen associé à une série statis- tique double

Objectif visé : être capable de construire dans un repère donné le nuage de points associé à une série statistique.

Activité 0.6.2.

La série statistique suivante indique les notes mensuelles d’un élève aucours de cinq premiers mois de l’année scolaire numérotés de 1 à5.

M ois(xi) 1 2 3 4 5 N ote(y_j) 8 9 12 12 13

1. Placer dans un repère orthogonal les points M_ij de coordonnées (x_i, y_j) (unité : 1 cm sur l’axe (ox) ; 1 cm sur l’axe (oy)).

2. Calculer les moyennesx¯et y¯

(15)

3. Placer le pointG(¯x,y)¯ Correction 0.6.2.

1. ¹ ² ³ ⁴ ⁵ ⁶

1 2 3 4 5 6 7 8 9 10 11 12 13

0

2. - La moyennex¯ deX est : x¯= ^1+2+3+4+5₅ = 3 - La moyenne y¯de Y est : y¯= 8+9+12+12+13

5 = 10.8 le point moyen est G= (3; 10.8)

Pour régrouper les individus qui se ressembles (et séparer ceux qui ne se ressemble pas), il fout un "critère de ressemblance". pour cela on examine l’ensemble des infomations consernant les individus notées (x_i, y_i) pour le ième individu, et on imagine que chaque individu est un pointM_i(x_i, y_i)du plan. On obtient ainsi un nuage de points dans le plan Γ ={M_i, i= 1,2, ..., n}où n est l’éffectif total de la population.

1-Définitions

- On appellenuage de pointsassocié à la série statistique double (X, Y), l’ensemble des points M_i du plan dont le couple de coordonnée est (x_i, y_i).

- On appellepoint moyend’un nuage denpointsM_i de coordonnées(x_i, y_i), le point G de coordonnées(x_G, y_G) telles que :x_G = ¯x= 1

n

X

i=1

x_i, y_G = ¯y = 1 n

n

X

i=1

y_i

Remarque 0.6.1. Dans notre étude, nous faisons la convention de répresenter que les points dont les couples ont des efffectifs non nuls.

Remarque 0.6.2. Le point G est l’isobarycentre des points (M_i)1≤i≤n. Exemple 0.6.2.

(16)

Le tableau ci-dessous représente une série statistique double.

A₁ A₂ A₃ A₄ A₅ x_i 1 1.5 2 2.5 3 y_j 2.5 3 4.5 5 9

oùA_ia pour coordonner(x_i, y_i). ¹ ² ³

1 2 3 4 5 6 7 8 9 10

0

A1

A₂ A₄

A₅

A₃ G

Figure 4-1

L’ensemble {A₁, A₂, A₃, A₄, A₅} constitue le nuage de points associé à cette série statistique double. Le point moyen est G(¯x,y) = (2; 4.8).¯

2-Représentation graphique du nuage de points

Dans cette partie, il est question de ressortir les differentes méthodes de représentations de nuage de points dans un plan. Pour ce faire, nous allons distinguer troix cas differents.

1^er cas.

Lorsque l’effectif n_ij du couple (x_i, y_j) est égale à 1, les éléments distincts du nuage de points sont représentés par un point physique.

Exemple 0.6.3.

En reprenant l’exemple précédent, on obtient la figure suivante.

1 2 3

1 2 3 4 5 6 7 8 9 10

0 Figure 4-2

2^me cas.

Le1^er cas de représentation du nuage de points ne tient pas compte du "poids" de chaque point ; c’est-à-dire de l’effectif du couple de coordonnés (x_i, y_j). Ainsi, lorsque l’effectif

(17)

nij du couple (xi, yj) est different, par convention on indique à droite de chaque point du nuage l’effectif de son couple de coordonnée, l’ensemble des points obtenus est appélé ensemble de points ponderés.

Exemple 0.6.4.

Considèrons le tableau statistique à double entrée suivante.

Y(Ω)\X(Ω) 6 7 8 9 10 11 12 13 14 Total

4 0 1 0 1 0 0 0 0 0 2

7 0 0 0 0 0 0 0 0 1 1

8 0 0 0 0 0 0 0 0 0 1

9 0 0 0 0 2 0 1 0 1 4

10 0 0 0 0 0 2 0 1 0 3

11 1 0 0 0 0 0 3 0 0 4

12 0 0 0 0 0 0 0 1 0 1

13 0 0 0 5 0 2 0 0 0 7

14 0 0 0 0 0 0 0 0 1 1

16 0 0 0 0 0 0 1 0 0 1

Total 1 1 1 6 2 4 5 2 3 25

La répresentation graphique du nuage des points associés à cette série statistique est :

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

0

(1) (1) (1)

(5)

(2) (2) (2)

(1) (3) (1)

(1) (1)

(1) (1) (1)

Figure 4-3 3^mecas

Dans ce dernièr cas, on met en évidence le poids de chaque couple de coordonnées en représentant les points du nuage par des taches.

(18)

Chaque point du nuage est alors le centre d’un disque dont l’aire est proportionnelle à l’effectif du couple considéré.

Exemple 0.6.5.

Reprenons le tableau statistique à double entré de l’exemple précédent.

Le tableau suivant donne les differents effectifs de chaque couple (x_i;y_j) Effectif n_ij 1 2 3 4 5

Rayon du disque

Problème : comment calculer le rayon d’un disque ? - Calcul pratique du rayon d’un disque.

Choix du rayon du plus grand disque

On choisit le rayon du disque centré aux points dont les couples de coordonnées ont l’effectif le plus élévé.

Dans notre exemple, c’est le couple (9; 13)dont l’effectif est 5qui convient.

Pour ce couple (9; 13) choisissons0.8 cm comme rayon du disque en ce point Calcul du rayon d’un disque ( en cm ).

Soit r le rayon du disque centré sur le point dont le couple de coordonnées a pour effectif n. L’aire de ce disque est πr².

Les aires étant proportonnellelles aux effectifs, on a :

π×(0.8)²

4 = ^πr_n², d’ou r = 0.8p_n

4 = ^0.8₂ √ n

Dressons le tableau donnant les rayons des différents taches.

Effectif n_ij 1 2 3 4 5

Rayon du disque 0.36 0.51 0.62 0.72 0.8

(19)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

0 Figure 4-4

Remarque 0.6.3.

Le choix du rayon centré au point dont le couple de coordonnées a l’effectif le plus élévé, se fait en fonction de la répartition des points du nuage de façon que, deux disques quelconques soient disjoints.

Exercice proposé 0.6.1.

Exercice 1

Le tableau suivant présente trois séries statistiques(x_i),(y_i)et(z_i). On considère les séries statistiques doubles (x_i;y_i)et (x_i;z_i).

x_i 1.7 1.9 2.5 2.7 3.2 y_i 105 95 80 75 62 z_i 110 85 75 90 57

1. Déterminer le nuage de points associé à chacune des deux séries doubles.

2. Calculer les coordonnées de leurs points moyens respectifsG₁ et G₂.

0.6.2 Inertie d’un nuage de point

Objectif : être capable de mesurer la dispersion des points du nuage autour du point moyen G.

Activité 0.6.3.

SoitΓ ={M₁, M₂, M₃, M₄}un nuage de point du plan où M₁(1,0),M₂(0,1),M₃(3,1), M₄(4,2).

(20)

1. Calculer la distance euclidienne de deux individus Mi et Mj. 2. En déduire la matrice des distance.

3. Calculer le centre de gravité G d’un nuage de pointsΓ.

On suppose que les points du nuage ont le même poids égal à ¹₄. 4. Calculer les distancesd₂(M_i, G)² i∈1,2,3,4

5. En déduire la quantité :I(G) = ¹₄(d₂(M₁, G)²+d₂(M₂, G)²+d₂(M₃, G)²+d₂(M₄, G)²) Définition 0.6.1.

La distance euclidiennede deux individus M_i etM_j est donnée par : d₂(M_i, M_j) =p

(x_i−x_j)²+ (y_i−y_j)² .

A chaque nuage d’individus, on peut associé une matrice D définir par : D= (d_ij)0≤i≤n,0≤j≤n = (d₂(M_i, M_j)0≤i≤n,0≤j≤n

Remarques 0.6.1.

– La distance euclidienne est d’autant plus petite que les deux individus sont sem- blables et d’autant plus grande qu’ils sont differents.

– A coté de la distance euclidienne, on peut définir d’autres distances (et donc d’autres matrices de distance ), par exemple :

d₁(M_i, M_j) =|x_i−x_j| − |y_i−y_j| et d_∞(M_i, M_j) = M ax{|x_i−x_j|,|y_i−y_j|}.

– Pour un nuage d’éffectif n, il y’a donc ⁿ⁽ⁿ⁻¹⁾₂ distance à calculer.

Définition 0.6.2.

On appelle inertie totale d’un nuage Γ ={M_i, i= 1,2, ..., n} la moyenne des carrés des distances de ses points au centre de gravité du nuage.

Autrement dit, siGest le centre de gravité deΓ, l’inertie totale deΓest, si tout les points du nuage sont de même poids égal à ¹_n

I(Γ) = _n¹(d2(M1, G)²+d2(M2, G)²+...+d2(Mn, G)²) (F)

(21)

G M₁

M₂

M₃

M₄

M₅

M₆

M₇ M₈ M₉

Remarques 0.6.2.

L’inertie mesure la dispersion du nuage.

Exemple 0.6.6.

On considère les6points de l’ensembleΓ ={Mi,1≤i≤6}définis par :M1 = (−2,3), M₂ = (2,1), M₃ = (4,−1),M₄ = (3,4), M₅ = (2,6)M₆ = (3,5).

1. Calculer le centre de gravité du nuage de points ; 2. Calculer l’inertie totale du nuage de points ; Solution

1. G= (−2+2+4+3+2+3

6 ;3+1−1+4+6+5

6 ) = (2,3)

2. d₂(M₁, G)² = 16; d₂(M₂, G)² = 4; d₂(M₃, G)² = 20;d₂(M₄, G)² = 2; d₂(M₅, G)² = 9 et d₂(M₆, G)² = 5.

Linertie totale est donnée par : I(Γ) = ¹₆(16 + 4 + 20 + 2 + 9 + 5) = ²⁸₃. 1-Ecarts entre classes

Supposons que le nuage Γ = {M_i, i = 1,2, ..., n} est décomposé en plusieures classes Γ₁, Γ₂,..., Γ_k et notons G₁, G₂,..., G_k les centres de gravités respectifs de chaque classes et notons p₁, p₂,..., p_k les poids respectifs de chaque classe que l’on définit de la façon suivante : si l’on suppose que tous les individus ont le même poids égal à ¹_n, le poidsp_l de la classe Γ_l est égal à l’éffectif de Γ_l divisé parn.

De cette façon, la somme des poids de toutes les classes vaut 1

Pour mesurer la proximité ou l’ecart entre deux classesΓ_letΓ_m, il existe de nombreuses façons de procéder :on calcule par exemple la quantité M in{d(M_i, M_j), M_i ∈ Γ_l, M_j ∈

(22)

Γm} appelée distance du plus proche voisin ou M ax{d(Mi, Mj), Mi ∈ Γl, Mj ∈ Γm} ou simplement la distance des centres de gravité d₂(G_m, G_l). Mais la mesure que l’on utilise le plus souvent appelée écart de Ward est définie par :

d(Γm,Γl) = _p^p^m^p^l

l+pmd2(Gm, Gl)² où pl et pm sont les poids des deux classes.

2-Inertie interclasse et Inertie intraclasse Activité 0.6.4.

On considère une série statistique double donc le nuage de points est(Mi,1≤i ≤6) où M₁ = (1,2), M₂ = (2,5), M₃ = (4,7), M₄ = (2,−1) M₅ = (3,8),M₆ = (4,9).

1. Calculer le point moyen G associé a cette série double.

2. Calculer l’inertie totale I(Γ) de cette série double.

On pose Γ1 ={Mi,1≤i≤3} etΓ2 ={Mi,4≤i≤6}

3. Calculer les points moyens G₁ de Γ₁ etG₂ de Γ₂ 4. Déterminer l’inertie totale I(Γ₁) et I(Γ₂).

En déduire la valeur nombre réel A=p₁I(Γ₁) +p₂I(Γ₂) oùp_i = ³₆. 5. Calculer le nombre réel B = _p¹

1d₂(G₁, G)²+_p¹

2d₂(G₂, G)²) oùp_i = ³₆. 6. Vérifier que I(Γ) =A+B

1) Inertie intraclasse

Supposons que le nuage Γ est composé des k classes Γ₁, Γ₂,..., Γ_k.

I(Γ₁),I(Γ₂), ...,I(Γ_k)les inerties de chaque classe ; calculées par rapport à leurs centres de gravitésG₁, G₂,..., G_k respectifs. La moyenne pondérée de ces inertie est appelée inertie intraclasse. C’est-à-direIintra =p₁I(Γ₁) +p₂I(Γ₂) +...+p_kI(Γ_k)

Les inerties des classes I(Γ₁), I(Γ₂), ..., I(Γ_k) sont simplement calculées avec la formule (F) de la définition (0.5.2) où l’on remplace le centre de gravitéG par celui de la classe G₁, G₂,... et l’éffectif n par celui de la classe.

2) Inertie interclasse

L’inertie totale d’un nuage de point n’est generalement pas égale à la somme pondérée des inerties des classes qui le composent, c’est-à-dire à l’inertie interclasse (sauf dans le cas où les centres de gravité de toutes les classes sont confondus).

Dans ce cas il faut prendre en compte la dispersion des classes par rapport au centre de gravité du nuage.On définit alors l’inertie interclasse par :

Iinter =p₁d₂(G₁, G)²+p₂d₂(G₂, G)²+...+p_kd₂(G_k, G)² Théorème 0.6.1.

(23)

L’inertie totale d’un nuage de points composé de differentes classes est la somme de son inertie intraclasse et de son inertie interclasse.

C’est-à-dire I(Γ) =I(Γ₁S Γ₂S

...S

Γ_k) =Iintra+Iinter

Cette resultat est appelé décomposition de Huygens.

Démonstration

Exemple 0.6.7.

On considère les6points de l’ensembleΓ ={M_i,1≤i≤6}définis par :M₁ = (−2,3), M₂ = (2,1), M₃ = (4,−1),M₄ = (3,4), M₅ = (2,6)M₆ = (3,5).

1. Calculer le centre de gravité du nuage de points ; 2. Calculer l’inertie totale du nuage de points ; 3. Calculer l’inertie interclasse du nuage de points ; 4. Calculer l’inertie intraclasse du nuage de points ; 5. Vérifier le théorème de Huygens.

Solution

1. G= (−2+2+4+3+2+3

6 ;3+1−1+4+6+5

6 ) = (2,3)

2. d₂(M₁, G)² = 16; d₂(M₂, G)² = 4; d₂(M₃, G)² = 20;d₂(M₄, G)² = 2; d2(M5, G)² = 9 et d2(M6, G)² = 5.

Linertie totale est donnée par : I(Γ) = ¹₆(16 + 4 + 20 + 2 + 9 + 5) = ²⁸₃ Divisons l’ensemble Γ en deux sous ensembles de même cardinal : Γ1 ={Mi,1≤i≤3} etΓ2 ={Mi,4≤i≤6}

Le point moyen de Γ₁ estG₁ = (⁴₃,1)et celui de Γ₂ estG₂ = (⁸₃,5)

d₂(M₁, G₁)² = ¹³⁶₉ ,d₂(M₂, G₁)² = ⁴₉,d₂(M₃, G₁)² = ¹⁰⁰₉ ,d₂(M₄, G₂)² = ¹⁰₉,d₂(M₅, G₂)² =

13

9, d2(M6, G2)² = ¹₉.

I(Γ₁) = ¹₃(¹³⁶₉ +⁴₉ + ¹⁰⁰₉ = ⁸⁰₉ et I(Γ₂) = ¹₃(¹⁰₉ +¹³₉ +¹₉ = ⁸₉

3. L’inertie intraclasse est donnée par : Iintra = ¹₂I(Γ₁) +¹₂I(Γ₂) = ¹₂ ×⁸⁰₉ +¹₂× ⁸₉ = ⁴⁴₉ En plus d₂(G₁, G)² = ⁴⁰₉ et d₂(G₂, G)² = ⁴⁰₉

4. L’inertie interclasse est donnée par : Iinter = ¹₂ ×d₂(G₁, G)²+ ¹₂ ×d₂(G₂, G)² = ⁴⁰₉ 5. Vérification : Iinter+Iintra = ⁴⁰₉ +⁴⁴₉ = ⁸⁴₉ = ²⁸₃ =I(Γ)

Exercice d’application 0.6.2.

(24)

0.6.3 Application du théorème de Huygens : covariance d’une série statistique double

Activité 0.6.5.

Le tableau ci-dcessous donne la répartition des bénéfices annuels (en milliers de francs) des exploitations agricoles d’une région suivant leur superficie (en diziane d’hectares).

taille xi 1 2 4 1 3 4 3 3 Bénéfice y_i 2 5 7 -1 8 9 7 3

1. Calculerx¯et y.¯

2. Recopier et compléter le tableau suivant.

taille x_i 1 2 4 1 3 4 3 3

Bénéfice y_i 2 5 7 -1 8 9 7 3 Total x_i−x¯

y_i−y¯

(x_i−x)(y¯ _i−y)¯

3. Calculer le nombre réel C = 1 N

n

X

i=1

(x_i−x)(y¯ _i−y).¯

4. Démontrer que C =

n

X

i=1

xiyi−x¯¯y

Définition 0.6.3.

On appelle Covariance d’une série statistique double (X, Y) répresentée par n points, le nombre noté Cov(X, Y) ouσXY et définie par :Cov(X, Y) = 1

N

n

X

i=1

(xi−x)(y¯ i−y)¯

Exemple 0.6.8.

Le tableau ci-dessous représente une série double(X, Y).

x_i 1 1.5 2 2.5 3 y_i 2.3 3 4.5 5 9

La moyenne x¯de X estx¯= 1+1.5+2+2.5+3

5 = 2 et celle de Y est y¯= 2.5+3+4.5+5+9

5 = 4.8

La covariance est donnée par : Cov(X, Y) = 2.5+4.5+9+12.5+27

5 −9.6 = 1.5 Propriétés 0.6.1.

(25)

1. Cov(X, Y) =

n

X

i=1

x_iy_i−x¯y¯(Formule de Huygens-König) En effet, x¯=

n

X

i=1

x_i ⇐⇒Nx¯=

n

X

i=1

x_i ety¯=

n

X

i=n

y_i ⇐⇒ Ny¯=

n

X

i=1

y_i.

Cov(X, Y) = 1 N

n

X

i=1

(x_i−x)(y¯ _i−y)¯

= 1

N(

n

X

i=n

xiyi−xiy¯−yix¯+ ¯x¯y)

= 1

N(

n

X

i=1

x_iy_i−Nx¯¯y−Nx¯¯y+Nx¯¯y)

= 1

N

n

X

i=n

x_iy_i−x¯y¯

2. Cov(X, Y) = Cov(Y, X) la covariance est symétrique 3. Cov(X, X) = var(X)

4. Si l’on multiplie par un même nombre toutes les valeurs de l’une des variables, la covariance est multipliée par ce nombre.

5. La covariance estnulle siX etY sontindépendants; mais Cov(X, Y)n’implique pas que X etY sont indépendants.

6. La covariance depend des unités choisies pour mesurer les variables X et Y : on vérifie facilement que

Cov(aX +b, cY +d) =acCov(X, Y) pour tous réels a, b, c, d

7. Soitσ_X (respσ_Y) l’écart type deX (respY). Alors|Cov(X, Y)| ≤σ_Xσ_Y et l’égalité a lieu si et seulement si les points du nuage sont alignés.

0.6.4 Minimum d’inertie

A- Ajustement affine par la méthode des moindres carés Activité 0.6.6. .

Objectif visé : déterminer l’unique droite (∆) d’équation y = ax+b qui passe le plus près possible des points de nuage.

Le graphique ci-dessous représente le nuage des points d’une sétie double (X, Y)

(26)

P1

M₁

P₂

M₂ P₃

M₃

Pi

M_i

Mi−1

Pi−1 (∆)

O i

j

On poseS =

n

X

i=1

(MiPi)²

1. Calculer la distanceM_iP_i en fonction dex_i et y_i. 2. En déduire que S =

n

X

i=1

(y_i−ax_i)²−2b

n

X

i=1

(y_i−ax_i) +nb².

3. On posef(b) = S. Calculer f⁰(b)et en déduire la valeur deb pour laquelle f admet un minimum.

4. Justifier que la droite qui rend minimale la somme S passe par le point moyen G(¯x,y).¯

5. On poseb = ¯y−ax¯etS =h(a) =

n

X

i=1

(y_i−y)¯²−2a

n

X

i=1

(y_i−y)(x¯ _i−x) +¯ a²

n

X

i=1

(x_i−x)¯ ² Calculer h⁰(a)et en déduire la valeur de a pour laquelle h admet un minimum.

6. Justifier que a= ^Cov(X,Y_V_(X) ⁾ = _(σ^σ^XY

X)².

Nous considérons un nuage de points (Mi(xi, yi))1≤i≤n et (∆) une droite d’équation y=ax+b

Définition

– Nous appelons somme des résidus associées à la droite (∆) le nombre réel S définie par : S =

n

X

i=1

(y_i −(ax_i +b))²

Si P_i désigne le point d’abscisse x_i sur la droite (∆), nous avons S =

n

X

i=1

(M_iP_i)². – On appelle méthode des moindres carrés la méthode qui consiste à rechercher

les coefficients a etb tels que la somme S soit minimale.

Principe de la méthode des moindres carrés

On peut mesurer la distance d’une droite(∆) à un point du nuage en calculant la somme des carrés des distances M_iP_i où pour chaque i,P_i est le projecté deM_i sur la droite(∆) parallèlement à l’axe (O,~j).

Plus cette somme sera petite et plus la droite sera proche du nuage de points.

(27)

On procédera suivant la demarche :

– Première étape : chercher une équation de droite(y=ax+b) qui passe le plus près des points du nuage.

– Deuxième étape : calculer pour chaque Mi la valeurMiP_i² = (yi−axi −b)². – Troixième étape : chercher à minimiser la somme des M_iP_i².

M_i

P_i ax_i+b

y_i

0

(∆)

i j

Figure 3

Droite de régression

Définition

• Soit(∆) une droite d’ajustement d’équation :y =ax+b,Mi(xi;yi)un point du nuage, A_i le projecté de M_i sur la droite (∆)

On dit que (∆) est la droite de régression de Y en X lorsque la somme

n

X

i=1

M_iA²_i est minimale.

• (∆⁰) une droite d’ajustement d’équation :x=a⁰y+b⁰, M_i(x_i;y_i)un point du nuage, B_i le projecté de M_i sur la droite (∆⁰)

On dit que (∆⁰) est la droite de régression de X en Y lorsque la somme

n

X

i=1

MiB_i² est minimale.

Rappel : la droite de « régression linéaire » passe par le point moyenG= (¯x,y)¯ Théorème 0.6.2.

Il existe une unique droite(∆)d’équationy=ax+bajustant la série statistique double Γn par la méthode de moindre carrés, ses coefficients sont donnés par :







a= ^COV_{V ar(X}^(X,Y₎⁾ b= ¯y−a¯x Démonstration

Nous allons montrer qu’il existe une seule droite (∆) donc un couple unique (a, b) ) telle que la somme des nombres n_ij[y_j −(ax_i+b)]² soit minimal

Considérons la droite (∆) :y =ax+b

Calculons la valeur des écart ei des points observés à cette droite, mésurés parallelement

(28)

à l’axe des ordonnées :

e_i =y_i−ax_i−b pouri= 1,2,3, ..., N

En désignant par S(a, b) la somme des carrés dee_i on obtient S(a, b) =

N

X

i=1

e²_i =

N

X

i=1

(y_i−ax_i−b)²

S(a, b)est une fonction dependant des coefficient a etb de la droite (∆)

La droite des moindres carrés carrespond aux valeurs des coefficients a et b qui rendent minimale cette quantité. Determinons ces valeurs de a etb.

•Determinons pour a fixé la valeur de b qui minimise S(a, b).

considérons la fonction suivante : f : R → R

b 7→ f(b), f(b) =Pn

i=1(yi−axi−b)² f est une fonction polynôme du second degré donc dérivable sur R.

Si f admet un minimum, alors f⁰(b) = 0 On a :f⁰(b) = −2

N

X

i=1

(y_i−ax_i−b)f⁰(b) = 0 ⇐⇒

N

X

i=1

y_i−a

N

X

i=1

x_i−

N

X

i=1

b = 0

⇐⇒

N

X

i=1

y_i−a

N

X

i=1

x_i−N b= 0

⇐⇒ 1 N

N

X

i=1

y_i− a N

N

X

i=1

x_i+b = 0

D’ou b = ¯y−a¯x avecy¯= 1 N

N

X

i=1

yi; x¯= 1 N

N

X

i=1

xi

Substituons cette valeur de b dans l’expression de S(a, b) on obtient : g(a) =

N

X

i=1

[y_i−ax_i−(¯y−ax)]¯ ² =

N

X

i=1

[(y_i−y)¯ −a(x_i−x)]¯ ² g(a) est la valeur du minimum partiel de S lorsque a est fixe.

• Determinons maintenant la valeur de a qui minimise g(a).

g est une fonction polynôme du second degré donc dérivable sur R. Si g admet un minimum, alorsg⁰(a) = 0. On a :

g⁰(a) =−2

N

X

i=1

(x_i −x)[(y¯ _i−y)¯ −a(x_i −x)]¯

g⁰(a) = 0 ⇐⇒

N

X

i=1

(xi−x)[(y¯ i−y)¯ −a(xi−x)] = 0¯

⇐⇒

N

X

i=1

(x_i−x)(y¯ _i−y)¯ −a

N

X

i=1

(x_i−x)¯ ² = 0

Donc a= PN

i=1(x_i−x)(y¯ _i−y)¯ PN

i=1(x_i−x)¯ ² = σ_XY

σ_X² = Cov(X, Y) V ar(X)

(29)

Propriété 0.6.1.

Soit (x_i, y_i)1≤i≤n une série statistique à deux caractères X etY d’effectif N telles que V(X)6= 0 et V(Y)6= 0 .

¯

x la moyenne de la série de caractère X ety¯la moyenne de la série de caractère Y La droite de moindres carrés(∆) ou droite de régression deY enX est l’unique droite qui constitue le meilleur ajustement de nuage.

Elle a pour équation : y=ax+b avec : a = ^Cov(X,Y_V_(X) ⁾;b = ¯y−a¯x Cette droite passe par le point moyen G(¯x,y).¯

La droite de régression de X enY est l’unique droite (∆⁰)qui a pour équation : x=a⁰y+b⁰ avec : a⁰ = ^Cov(X,Y_V_(Y₎ ⁾; b⁰ = ¯x−ay¯

Cette droite passe par le point moyen G(¯x,y)¯ Remarques 0.6.3.

1. a = ^Cov(X,Y_V_(X₎ ⁾ est le coefficient directeur de la droite de régression de Y en X. Une équation de cette droite est : y−y¯= ^Cov(X,Y_V_(X) ⁾(x−x).¯

2. a⁰ = ^Cov(X,Y_V_(X) ⁾ est le coefficient directeur de la droite de régression de X en Y. Une équation de cette droite est : x−x¯= ^Cov(X,Y_V_(Y₎ ⁾(y−y).¯

Théorème 0.6.3. Les droites de régression (∆) et (∆⁰) sont confondues si et seulement si (σ_XY)² = (σ_X)²(σ_Y)², si et seulement si tous les points du nuage sont alignés.

Demonstraction

CommeGest à la fois sur(∆)et sur(∆⁰), les deux droites sont confondues si et seulement si leurs coefficients directeurs sont égaux

C’est-à-dire _(σ^σ^XY

X)² = ^(σ_σ^Y⁾²

XY

C’est-à-dire σ_XY² = (σ_X)²(σ_Y)².

D’où tous les points du nuage sont alignés (d’après 1)

Exemple 0.6.9.

Le tableau suivant donne la tension artérielle moyenney en fonction de l’âge x d’une population.

Age(x_i) 36 42 48 54 60 66

Tension(y_i) 11.8 14 12.6 15 15.5 15.1

Réprésentons le nuage de points associé à cette série statistique, puis traçons la droite de