• Aucun résultat trouvé

Statistiques bivariées

N/A
N/A
Protected

Academic year: 2022

Partager "Statistiques bivariées"

Copied!
7
0
0

Texte intégral

(1)

Statistiques bivariées

4 Exercices Énoncés

Exercice 1 ** à *** [d’après épreuve ESCP]

On dit qu’une variable aléatoire réelleX suit une loi de Pareto de paramètresα etx0 siX, à valeurs dans[x0,+∞[, admet pour densité la fonction f définie par :

f(x) =0 ∀x<x0 f(x) =α

xα0

xα+1 ∀x>x0 On écrit alors queXsuitV P(α,x0).

A. Quelques résultats probabilistes.

1) SoitX une variable aléatoire suivantV P(α,x0).

a: Vérifier que f est bien une fonction de densité.

b: Déterminer la fonction de répartitionF deX et calculer, pourx>x0, ln(1−F(x))en fonction de ln(x).

On rappelle que ln désigne la fonction logarithme népérien.

2) SoitX une variable aléatoire suivantV P(α,x0).

a: Déterminer les valeurs deα pour lesquelles X admet une espérance et la calculer dans ce cas.

b: Déterminer les valeurs de α pour lesquelles X admet une variance et la calculer dans ce cas.

3) Soient une variable aléatoireXsuivantV P(α,x0)et un réel strictement positifλ. Déter- miner la fonction de répartition de la variable aléatoireY=λX. Quelle loi reconnaît-on ?

(2)

2 CHAPITRE 11. STATISTIQUES BIVARIÉES

4) Soit une variable aléatoireW qui suit une loi exponentielle de paramètreβ >0 c’est à dire queW admet une densité de probabilitégdéfinie par :

g(x) =0 ∀x<0 g(x) =βe−βx ∀x>0

Soientkun nombre réel strictement supérieur à 1 etx0un nombre réel strictement positif.

Déterminer la fonction de répartition de la variable aléatoire T =x0kW? Quelle loi reconnaît-on ?

5) Soit une variable aléatoire√ XsuivantV P(α,x0). Déterminer la loi de la variable aléatoire X.

Un exemple statistique : la démographie.

Des statistiques sur la démographie du département des Ardennes en 1962 indiquent la répar- tition de la population des 450 communes de ce département.

On note :

x: Nombre d’habitants,

N(x): Nombre de communes possédant plus dexhabitants,

et on dispose du tableau suivant :

x N(x)

1800 20

1300 30

700 50

380 100

250 150

180 200

140 250

110 300

85 350

60 400

Ces données sont représentées dans le graphique page suivante (sur papier ln ln).

Le graphique représente les points d’abscisse ln(x)et d’ordonnée ln(N(x))pour les valeursx du tableau.

Une étude statistique permet d’estimer que ce nuage de points peut être modélisé par une droite D(figurant sur le graphique page suivante)

1) a: Proposer un script Python permettant d’entrer les deux listesxetN.

b: À la suite du script précédent, ajouter les codes Python permettant d’obtenir la listes X = (ln(xi))etY = (ln(Ni)), ainsi que la représentation du nuage de points de la statistique bivariée(X,Y).

c: Rappeler les formules définissantrX,Y le coefficient de corrélation linéaire deX et Y ainsi que les coefficients de la droite d’ajustement deY enX.

d: Finir le script Python afin d’obtenir le même graphique que celui du sujet.

2) Déterminer le coefficient directeur deDà partir du graphique du sujet.

3) Expliquer pourquoi on peut modéliser la distribution de la taille des communes par une loi de Pareto à deux paramètresV P(α,x0)

(3)

4) Donner, d’après le graphique, une valeur approchée de α à 10−1 près, en précisant la calcul ayant permis de l’obtenir.

Exercice 2 ** puis ***

FIGURE4.1 –

Une démonstration en exercice (la fin est tirée de l’épreuve Hec Escp voie E 2008)

(4)

4 CHAPITRE 11. STATISTIQUES BIVARIÉES

1) Position du problème

On a un nuage de points denpoints dans le plan :(Mi)i∈[[1,n]]

avecMi= (xi,yi)∈R2.

Si les points sont bien positionnés, on voudrait ajuster ce nuage par une droite (D) d’équationy=ax+b (voir figure 1 page précédente).

M1

M2

Mi

Mn

(D)y=ax+b

Pi

xi axi+b

yi

A priori, il y a différentes idées pour rechercher la meilleure droite possible. On va en développer une : c’est laméthode des moindres carréspour rechercher unedroite de régression deyenx.

SiMi = (xi,yi) est un point du nuage, on le projette sur la droite(D) parallèlement à l’axe des ordonnées. On obtient un pointPi= (xi,axi+b).

On poseri=d(Mi,Pi), distance deMiàPi. On pose f(a,b) =

n

i=1

r2i

On cherche(a,b)∈R2pour minimiser f(a,b). On va commencer par chercher un mini- mum relatif surR2pour la fonction f(a,b).

Introduisons quelques notations abusives, mais simplificatrices.

En notantX = (xi)i∈]]1,n]] etY = (yi)i∈]]1,n]], par analogie avec une distribution de proba- bilités, on introduit :

• E(X) =1 n

n

i=1

xi et E(Y) =1 n

n

i=1

yi

• E(X2) =1 n

n

i=1

x2i et E(Y2) =1 n

n

i=1

y2i

• E(XY) = 1 n

n

i=1

xiyi

(5)

• V(X) =E(X2)−E(X)2 et V(Y) =E(Y2)−E(Y2)

• Cov(X,Y) =E(XY)−E(X)E(Y) et ρ(X,Y) = Cov(X,Y) σ(X)σ(Y) 2) Début de solution sous forme d’exercice

a: Calculer f(a,b)et justifier que f est de classeC2surR2 b: Montrer que∂1(f)(a,b) =2anE(X2) +2bnE(X)−2nE(XY).

Calculer de même∂2(f)(a,b) c: Que se passe-t-il siV(X) =0.

Par la suite, on suppose queV(X)6=0.

d: Montrer que(a,b)est un point critique de f si et seulement si a=Cov(X,Y)

V(X) et b=E(Y)−aE(X) e: Montrer que f admet bien un minimum local au point critique trouvé.

3) Une suite plus difficiled’après Hec-Escp 2008 Exercice a: Montrer que, si(a,b)est le point critique trouvé, alors

1

nf(a,b) =a2V(X)−2aCov(X,Y) +V(Y)

b: Déterminerapour que ce polynôme en asoit minimum, et montrer que ce mini- mum estV(Y)

1−ρ(X,Y)2 . En déduire que |ρ(X,Y)|61 c: Que se passe-t-il siρ(X,Y) =±1 ?

d: Qu’apporte la solution de cet exercice Hec-Escp par rapport à la solution précé- dente ?

4) Un autre complément :voir Hec Escp voie E 2016 Problème (avec une représentation graphique).

5 TP Python spécial statistiques bivariées

Exercice 3 ** traiter un tableau de valeurs(xi,yi)i∈[[1,n]]

Soitn∈N,X= (xi)i∈[[1,n]], etY= (yi)i∈[[1,n]]deux statistiques définies sur une même population Ω. On illustrera les outils avec la statistique “double" suivante :

X 2 5 12 14 21

Y 15 11 6 5,5 2

(6)

6 CHAPITRE 11. STATISTIQUES BIVARIÉES

1) Définir en Python les deux listes de donnéesXetY. Représenter graphiquement le nuage de points.

Ajouter, dans ce nuage de points, le “centre de gravité"G, point de coordonnées X,Y oùX désigne la moyenne empirique de la statistiqueX.

2) Écrire une fonction Python permettant de calculerXY =1 n

n

i=1

xiyi. On utilisera l’intitulé : def ma(X,Y):

Puis, écrire une fonction Python donnant : Cov(X,Y) =XY−X Y. Écrire enfin une fonction Python donnant le coefficient de corrélation linéaireρ(X,Y). Donner les valeurs obtenues pour l’exemple de l’exercice.

3) La droite d’ajustement de Y en X, du nuage par la méthode des moindres carrées (ou droite de régression de Y en X) a une équation dy type

(D) y=ax+b Retrouver les formules donnant les coefficientsaetb.

Représenter cette droite sur le même graphique.

Faire de même pour la droite d’ajustement deX enY : (D0) x=a0y+b0

Exercice 4 **

X suit une loi uniforme sur[−3,3]etY =3X+1

Construire unn-échantillon de couple(xi,yi)i∈[[1,n]]avecn=30.

Reprendre l’exercice 3 avec cet ensemble de données.

Exercice 5 *

X suit une loi uniforme sur[1,7]etY=ln(X)

Construire unn-échantillon de couple(xi,yi)i∈[[1,n]]avecn=30.

Reprendre l’exercice 3 avec cet ensemble de données.

Exercice 6 ** [d’après une épreuve des années 1980]

Le but de cet exercice est de faire des stats descriptives avec un logiciel alors que ce sujet devait être traité avec des machines à calculer à l’époque de cet énoncé.

Le tableau suivant représente l’évolution du parc de voitures particulières en France, en milliers de véhicules, entre 1950 et 1970 :

Année 1950 1955 1960 1965 1970

Rang de l’annéeti 1 2 3 4 5

yi 1500 3000 6000 8000 12000

1) Représenter le nuage de pointsMi(ti,yi). Un ajustement linéaire vous semble-t-il adapté à l’étude de ces données ?

(7)

2) On posevi=ln(yi).

a: Déterminer le vecteur de données(vi)i∈[[1,5]].

b: Représenter le nuage de pointsNi(ti,vi)correspondant à ces données. Conclusion ? c: Donner, sous la formev=at+b, l’équation de la droite de régression devent.

3) a: En déduire, entreyettune relation de la formey=kdt

b: Quel est approximativement le nombre de voitures particulières en 1968 ? en 1996, en 2016 ?

c: Conclusion ?

Références

Documents relatifs

On obtiendra donc l'équivalence demandée par un simple théorème d'encadrement à condition de démontrer d'abord que la somme des k 1 est négligeable

[r]

[r]

Quelle relation graphique existe entre exp et ln?. Exercice

Novembre 2020 Logarithme et exponentielle CIRA 14.

(b) : quantité conjuguée ou plus simple factoriser le numérateur et le dénominateur par une puissance de x

[r]

Décomposer les expressions comme dans l’exemple a.. Recomposer les expressions comme dans