• Aucun résultat trouvé

L11 [V2-VàC] – Séries statistiques à deux variables numériques

N/A
N/A
Protected

Academic year: 2021

Partager "L11 [V2-VàC] – Séries statistiques à deux variables numériques"

Copied!
10
0
0

Texte intégral

(1)

9

Séries statistiques à deux variables

numériques

11

Leçon

Niveau BTS

Prérequis statistiques à une variable, équation d’une droite.

Références [31],[32], [33]

11.1

Nuage de points

Définition 11.1 — Série statistiques à deux variables. On se donne deux caractères qu’on suppose discrets X et Y pour chaque individu d’une population. On obtient donc une série statistique à 2 variables que l’on peut représenter par un nuage de points.

Définition 11.2 — Nuage de points. Soient X = (x1, . . . , xn) et Y = (y1, . . . , yn) deux caractères discrets. Un nuage de point associé à(X, Y ) est l’ensemble des points Mi = (xi, yi) pour 1 ≤ i ≤

n.

Exemple 11.3 On applique à un ressort une masse (qu’on mesure en grammes) et on lui mesure sa

longueur (en cm).

Masse (en g) 7 10 18 20 5 24 12 3

Longueur (en cm) 8,5 9 10,5 11 8 11,8 9,4 7,5 On peut construire le nuage de points associé à cette série statistique :



11.2

Point moyen

Définition 11.4 — Point moyen d’un nuage. Le point moyen d’un nuage de points est le point G de coordonnées(x, y) où (l’on rappelle que) :

x= 1 n n X i=1 xi et y = 1 n n X i=1 yi

(2)

Exemple 11.5 Dans l’exemple du ressort, on a : x= 7 + 10 + 18 + 20 + 5 + 24 + 12 + 3 8 = 12,375 y= 8,5 + 9 + 10,5 + 11 + 8 + 11,8 + 9,4 + 7,5 8 = 9,125 D’où G= (12,375; 9,125). 

11.3

Caractéristiques numériques

R 11.6 Comme X et Y sont deux caractères discrets, on peut séparément calculer la moyenne x, y, la médiane, les quartiles, l’écart-type σ(X) et σ(Y ) et la variance Var(X) et Var(Y ).

Définition 11.7 — Covariance. On appelle covariance du couple(X, Y ), le réel : Cov(X, Y ) = 1 n n X i=1 (xi− x)(yi− y).

Définition 11.8 — Coefficient de corrélation linéaire. On appelle coefficient de corrélation linéaire, le réel :

r= ρ(X, Y ) = Cov(X, Y ) σ(X)σ(Y ).

Exemple 11.9 Dans l’exemple précédent, on peut calculer :

Cov(X, Y ) ' 10,02 et ρ(X, Y ) ' 0,99

(3)

Propriété 11.10 1. Cov(X, X) = Var(X) d’après la formule de Koenig. 2. La covariance est une forme bilinéaire symétrique positive.

3. |Cov(X, Y )| ≤ σ(X)σ(Y ) et donc |ρ(X, Y )| ≤ 1.

4. |r| = |ρ(X, Y )| = 1 si et seulement si les points du nuages sont alignés.

11.4

Ajustement affine

Théorème 11.11— Méthode des moindres carrés. La droite d’équation

y− Y = Cov(X, Y )

σ(X)2 (x − X)

passe par le point moyen et est la droite d’équation réduite de la forme y = ax + b qui minimise la somme :

n

X

i=1

fi(axi+ b − yi)2 pour(a, b) ∈ R2. Autrement dit :

a= Cov(X, Y )

σ(X)2 et b= Y − X

Cov(X, Y )

σ(X)2

réalisent ce minimum sur R2.

Dv

• Preuve — Démonstration du théorème11.11, première méthode. On pose

S(a, b) =

n

X

i=1

[yi− axi− b]2

et on introduit z = y − ax − b, on peut alors réécrire S(a, b) comme

S(a, b) =

n

X

i=1

zi2.

Or, on sait que

Var(z) = 1 n n X i=1 (zi− z)2= 1 n n X i=1 z2i − z2

et, par linéarité de la moyenne z = y − ax − b. Donc, minimiser S(a, b) revient à minimiser Pzi2 =

n(Var(z) + z2).

On va donc minimiser nVar(z). On a :

(4)

D’où : nVar(z) = n X i=1 (zi− z) = n X i=1 [(yi− y) − a(xi− x)]2 = n X i=1

[(yi− y)2− 2a(xi− x)(yi− y) + a2(xi− x)2]

=Xn i=1 (yi− y)2− 2a n X i=1 (xi− x)(yi− y) + a2 n X i=1 (xi− x)2. Or Cov(x, y) = 1 n n X i=1 (xi− x)(yi− y). On a finalement :

Var(z) = Var(x)a2− 2 Cov(x, y) + Var(y).

On reconnaît un trinôme du second degré. On va l’écrire sous forme canonique : Var(z) =σ(x)a −Cov(x, y)

σ(x) 2 + Var(y) − Cov(x,y)σ(x) 2 =σ(x)a −Cov(x, y) σ(x) 2

+Var(x) Var(y) − Cov(x, y)2

Var(x) .

Ainsi,Var(z) est minimal lorsqueσ(x)a −Cov(x,y)σ(x) 2 = 0, c’est-à-dire a = Cov(x,y)Var(x) et le minimum de

Var(z) est

Var(x) Var(y) − Cov(x, y)2

Var(x) .

On va maintenant minimiser z2. On a : z= y − ax. Donc z est minimal si b = y − ax et le minimum de z est0.

D’où la droite de régression de y en x a pour équation y= ax + b où

a=Cov(x, y)

Var(x) et b= y − ax.

• Preuve — Démonstration du théorème11.11, seconde méthode. Soit f la fonction définie sur R2par : f(a, b) = n X i=1 fi(axi+ b − yi)2.

C’est une fonction polynôme de degré2 que l’on peut écrire sous la forme :

f(a, b) = n X i=1 fix2i ! a2+ b2+ 2 n X i=1 fixi ! ab − 2 n X i=1 fixiyi ! a− 2 n X i=1 fiyi ! b+ n X i=1 fiy2i

(5)

Les dérivées partielles sont données par :

∂f

∂a(a, b) = 2X

2a+ 2Xb − 2XY et ∂f

∂b(a, b) = 2Xa + 2b − 2Y

Elles s’annulent simultanément en l’unique point critique défini par :

a0= −X· Y + XY X2− X2 = Cov(X, Y ) σ(X)2 b0= XY · X + Y · X 2 X2− X2 = Y − X Cov(X, Y ) σ(X)2 .

Les dérivées partielles secondes sont données par :

2f ∂a2(a, b) = 2X 2 et 2f ∂a∂b(a, b) = 2X 2f ∂b2(a, b) = 2.

Avec les notations de Monge, au point(a0, b0), on a :

rt− s2= 4X2− 4X2= 4σ(X)2>0

ce qui assure qu’on a bien un minimum local en(a0, b0). De plus, un développement limité à l’ordre 2 au

voisinage de(a0, b0) donne : f(a, b) = f(a0, b0) +12 2f ∂a2(a0, b0)(a − a0) 2 +1 2 2f ∂a∂b(a0, b0)(a − a0)(b − b0) + 1 2 2f ∂b2(a0, b0)(b − b0) 2 ≥ f(a0, b0)

puisque les termes d’ordre supérieur sont nuls (fonction polynôme de degré 2) et la forme quadratique est strictement positive (rt − s2>0) et ainsi on a bien un maximum global sur R2.

La droite d’équation réduite y= a0x+ b0est la droite proposée dans l’énoncé et passe clairement par

le point moyen de la série statistique.

Définition 11.12 — Droite d’ajustement. — La droite définie ci-dessus est appelée droite d’ajus-tement (ou droite de régression de Y en X.

— La somme n

X

i=1

fi(axi+ b − yi)2 est appelée résidu quadratique.

R 11.13 1. La droite d’équation x− X = Cov(X, Y )σ(Y )2 (y − Y ) minimise la somme n X i=1 fi(ayi+ b − xi)2

(6)

2. Notons Z = (1, . . . , 1) le caractère constant égal à 1 sur la population commune à X et Y . Ajuster Y en X revient à considérer le projeté orthogonal de Y sur le sous-espace(X, Z) de l’espace euclidien Rnpour le produit scalaire canonique.

3. Lorsque |r| = |ρ(X, Y )| > 0,9 (valeur dépendant des auteurs et des besoins), on considère que l’ajus-tement affine de Y en X est satisfaisant (sinon, il faut déterminer un autre type d’ajusl’ajus-tement).

Exemple 11.14 On va calculer l’ajustement affine pour notre exemple du ressort. On a :

a= Cov(X, Y )

σ(X)2 ' 0,2 et b= Y − X

Cov(X, Y )

σ(X)2 ' 7.

D’où la droite de régression a pour équation y = 0,2x + 7 et on a vu que le coefficient de corrélation est pratiquement égal à 1. On peut donc affirmer sans trop d’erreur que l’allongement du ressort est proportionnel à la masse appliquée.

 11.4.1 Sur un tableur

Sur un tableur, on donne la masse d’un objet en fonction du temps : Temps (s) Masse (g) 0 0 5 22 10 53 15 88 20 125 25 163 30 202 35 245 40 296 45 352 50 412

(7)

On construit le graphique sans relier les points : — On sélectionne les deux colonnes du tableau. — Insertion > Diagramme

— On sélectionne le diagramme Ligne sans relier les points.

— Dans l’onglet « Plage de données », on coche l’option « Séries de données en colonnes », « Première ligne comme étiquette » et « Première colonne comme étiquette ».

On veut ensuite l’ajustement linéaire des données statistiques (c’est-à-dire la droite qui minimise le carré des distances des points). Pour cela, on clique droit sur les points et on sélectionne « Insérer une courbe de tendance ». La courbe doit être « Linéaire » et on peut afficher l’équation de la droite.

FIGURE11.1 – Ajustement linéaire sur les données statistiques

11.5

Autres types de régression

Dans certains cas, le nuage de points laisse pressentir une relation fonctionnelle globale entre X et Y mais cette relation n’est pas nécessairement affine.

11.5.1 Ajustement exponentielle

Si les points Mi(xi, yi) sont proches de la courbe d’équation y = λeaxalors les points Ni(xi,ln yi) sont proche de la courbe d’équation y = (ln a)x + (ln λ) et réciproquement.

La méthode consiste à chercher la droite de régression entre X etln Y .

11.5.2 Ajustement par une fonction puissance

Si les points Mi(xi, yi) sont proches de la courbe d’équation y = λaxalors les points Ni(ln xi,ln yi) sont proches de la courbe d’équation y= ax + ln λ réciproquement.

(8)
(9)

Bibliographie

[1] Problème des sept ponts de Königsberg, Wikipédia, l’encyclopédie libre.

[2] C. LE BOT, Théorie des graphes, 2006, http://blog.christophelebot.fr/ wp-content/uploads/2007/03/theorie_graphes.pdf.

[3] Coloration des graphes, Apprendre-en-ligne, http://www.apprendre-en-ligne. net/graphes-ancien/coloration/sommets.html

[4] O. GARET, Exemples de problèmes de graphes, http://iecl.univ-lorraine. fr/~Olivier.Garet/cours/graphes/graphes-documents_d_

accompagnement.pdf.

[5] E. SIGWARD& al., Odyssée Mathématiques Terminale ES/L, Hatier, 2012.

[6] Graphes probabilistes, Terminale ES spécialité.http://mathadoctes.free.fr/TES/ graphe/f4_graphe.PDF

[7] G. COSTANTINI, Probabilités (discrètes), Cours de Première S, URL : http:// bacamaths.net.

[8] P. RIBEREAU, Cours 5 Probabilités : Notion, probas conditionnelles et indépendance, URL :

http://www.math.univ-montp2.fr/

[9] P. DUVAL, Probabilités, TS. URL : http://lcs.werne.lyc14.ac-caen.fr/ ~duvalp

[10] G. COSTANTINI, Probabilités : Généralités, conditionnement, indépendance, Cours de

Pre-mière S. URL :http://bacamaths.net.

[11] M. LENZEN, Leçon no3 : Coefficients binomiaux, dénombrement des combinaisons, formule

du binôme. Applications., 2011, URL :http://www.capes-de-maths.com/index. php?page=leconsNEW

[12] G. CONNAN, Une année de mathématiques en Terminale S, Ch. 14, 2009-2010, URL :http: //tehessin.tuxfamily.org

[13] G. COSTANTINI, Loi binomiale, URL :http://bacamaths.net

[14] C. SUQUET, Intégration et Probabilités Elémentaires, 2009-2010. URL : http://math. univ-lille1.fr/~ipeis/

[15] L. LUBRANO& al., Mathématiques, BTS Industriels - Groupement B et C, Dunod, 2011.

[16] G. COSTANTINI, Lois de probabilités continues. URL :http://bacamaths.net.

[17] J.-P. GOULARD, Lois de probabilités continues, TS, 2014-2015.

http://blog.crdp-versailles.fr/jpgoualard/public/ TS-2014-2015-cours-loiscontinues.pdf.

[18] Probabilités 3 : Loi uniforme sur [a; b], Lycée de Font Romeu. http://www. lewebpedagogique.com/cerdagne/files/2013/02/02-Loi-uniforme. pdf

[19] Loi uniforme sur[a; b], IREM de Toulouse. URL :http://www.irem.ups-tlse.fr/ spip/IMG/pdf_LOI_UNIFORME.pdf

(10)

[21] C. SUQUET, Initiation à la Statistique, 2010. http://math.univ-lille1.fr/ ~suquet/Polys/IS.pdf.

[22] J.-F. DELMAS, Modélisation stochastique, Cours de M2, 2009. URL :http://cermics. enpc.fr/~delmas/Enseig/mod-stoch.pdf

[23] L.-M. BONNEVAL, Chaînes de Markov au lycée, APMEP no503, 2013. URL : http:// publimath.irem.univ-mrs.fr/biblio/AAA13018.htm

[24] Marche aléatoire, IREM de Franche-Comte. URL : http://www-irem. univ-fcomte.fr/download/irem/document/ressources/lycee/marche/ marche-aleatoire.pdf.

[25] Marches sur Z, culturemath.ens.fr, URL : http://culturemath.ens.fr/maths/ pdf/proba/marchesZ.pdf

[26] Contributeurs à Wikipedia, Marche aléatoire, Wikipédia, l’encyclopédie libre, 2014.

[27] Marche au hasard dans les rues de Toulouse, URL : http://mappemonde.mgm.fr/ actualites/M_toulouse2.html

[28] R. NOEL, Statistiques descriptives, http://amphimaths.chez-alice.fr/N1/ stats_desc_poly.pdf

[29] J. LEVY, Séries statistiques, URL :http://jellevy.yellis.net.

[30] P. BRACHET, Statistiques : résumé de cours et méthodes, Première S. http://www. xm1math.net/seconde/seconde_chap9_cours.pdf.

[31] Contributeurs de Wikipédia, Série statistique à deux variables, Wikipédia.

[32] G. COSTANTINI, Séries statistiques à deux variables. URL :http://bacamaths.net.

[33] A. GUICHET, Prépa ECS - Lycée Touchard, Chap 1. 1.2. URL :http://alainguichet. mathematex.net/ecs-touchard/wiki.

Références

Documents relatifs

Il peut être intéressant d’observer que, réciproquement, toute suite peut être considérée comme une série... Séries

 Relie les mots à tous les mots étiquettes qui

 Recopie les mots étiquettes au début des listes.  Classe les mots suivants sous le bon

Les trois séries abordent les mathématiques sous des angles différents ; une lecture comparative des trois documents, au-delà des contenus, pourra permettre de saisir ces

D’où, chez les citoyens-électeurs, le sentiment d’une trahison permanente des élites gouvernantes, qui alimente leur indignation, leur colère ou leur révolte, mais aussi

Sélectionne ensuite : Ligne ; Points et lignes ; Séries de données en ligne et Première ligne comme étiquette.. Saisis pour l'axe X : Valeur de x et pour l'axe Y : Aire

• La nature d’une série tronquée étant la même que celle de la série initiale, l’étude des séries réelles dont les termes ne sont positifs qu’à partir d’un certain rang

Au fur et à mesure, mettre à jour son résumé de cours à partir de cette feuille de route, du cours du livre et des notes prises au cours du travail sur ce chapitre, seul à la