• Aucun résultat trouvé

MATHEMATIQUES. Semestre 2. Statistiques à deux variables. COURS et exercices

N/A
N/A
Protected

Academic year: 2022

Partager "MATHEMATIQUES. Semestre 2. Statistiques à deux variables. COURS et exercices"

Copied!
23
0
0

Texte intégral

(1)

Département TECHNIQUES DE COMMERCIALISATION

MATHEMATIQUES

Semestre 2

________ Statistiques à deux variables ________

COURS et exercices

Ressource 2.13 : Techniques quantitatives et représentations Cours en ligne : sur http://jff-dut-tc.weebly.com section DUT Maths S2.

(2)

SOMMAIRE

1 INTRODUCTION, VOCABULAIRE ... 3

1.1 OBJECTIFS 3

1.2 MISES EN FORME 3

1.3 NUAGE DE POINTS 4

2 TEST D’INDEPENDANCE DU KHI-DEUX ... 5

2.1 GENERALITES SUR LES TESTS DHYPOTHESES 5

2.2 LE CAS PARTICULIER DU TEST D'INDEPENDANCE 5

2.3 METHODOLOGIE DU TEST 5

3 AJUSTEMENT LINEAIRE D’UN NUAGE DE POINTS ... 8

3.1 MOYENNES MOBILES 8

3.2 PROBLEMATIQUE DE LAJUSTEMENT LINEAIRE 9

3.3 DROITE DE REGRESSION : METHODE DE MAYER 10

3.4 DROITE DE REGRESSION : METHODE DES MOINDRES CARRES (LAPLACE) 11

3.4.1 PARAMETRES DES SERIES A DEUX VARIABLES 11

3.4.2 METHODE DES MOINDRES CARRES 12

3.4.3 AUTRES DROITES (NON EXIGIBLE) 12

3.5 COEFFICIENT DE CORRELATION LINEAIRE 14

4 AJUSTEMENT NON LINEAIRE : LE CHANGEMENT DE VARIABLE ... 18 5 STATISTIQUES PREVISIONNELLES... 20

5.1 ESTIMATION PONCTUELLE 20

5.2 ESTIMATION PAR INTERVALLE DE CONFIANCE 20

Formulaire p.23

(3)

COURS

1 Introduction, vocabulaire

1.1 Objectifs

Deux caractères seront ici étudiés simultanément sur chaque individu d'une population de taille n.

Les deux listes de valeurs des caractères forment deux variables X et Y.

Objectifs :

* mettre en évidence un lien, une relation, entre ces deux caractères : une corrélation ; modéliser cette corrélation par une fonction mathématique : régression ;

utiliser cette relation à des fins prévisionnelles, confiance en cette prévision.

* tester l'hypothèse qu'il n'y a pas de lien entre ces deux variables croisées

Si un lien de cause à effet est à étudier, X représentera la cause et sera appelée variable explicative, et Y représentera l’effet et sera appelée variable expliquée.

1.2 Mises en forme

Une observation (n° i) se décrira comme un couple de valeurs (xi ; yi).

Deux mises en forme des résultats peuvent être employées, suivant l'étude menée :

* séries de valeurs données en listes

exemple : lien entre quantité d'engrais épandu et production récoltée quantité d'engrais production recueillie parcelle n° X (kg.ha-1) Y (q.ha-1)

1 150 46

2 80 37

3 120 46

4 220 51

5 100 43

exemple de série chronologique : évolution annuelle des dépenses publicitaires d’une entreprise X : année 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 Y : dépense 41 60 55 66 87 61 90 95 82 120 125 118

* séries + effectifs : tableaux de contingence

exemple : lien entre âge et acuité visuelle (mesures prises sur 200 personnes) X : âge

20 40 50 60 Y :

acuité

3/10 1 5 10 20

6/10 8 12 25 18

9/10 55 26 14 6

On appelle effectif marginal

un sous-total de ligne ou de colonne.

(4)

1.3 Nuage de points

Chaque série statistique à deux variables peut être représentée graphiquement par un nuage de points, chaque variable étant représentée sur son axe.

* séries en listes : un couple (xi ; yi) correspond à un individu et se représente par un point du plan.

exemple n°2 page précédente :

* séries avec contingence : un couple (xi ; yi) correspond en général à plus d’un individu et se représente par un objet dont la taille est fonction croissante de l’effectif correspondant.

exemple n°3 page précédente :

2006)

(5)

2 Test d’indépendance du Khi-deux

2.1 Généralités sur les tests d’hypothèses

Un test statistique consiste à décider si une hypothèse faite sur la population peut ou ne peut pas être rejetée, test conduit à partir des résultats obtenus sur un échantillon (il existe des tests d’hypothèses plus élaborés qui ne nous concernent pas ici).

Cette hypothèse est nommée "hypothèse nulle", notée H0.

Si la décision prise est le rejet de H0, elle présente un certain risque d’avoir été prise à tort, risque dont la probabilité est nommée p-valeur du test. Le risque maximal admissible (de se tromper en rejetant l’hypothèse nulle), choisi à l’avance, est nommé "seuil de risque" ou "seuil de signification" du test et est noté α ("alpha") (On parle aussi de risque de première espèce).

Si la p-valeur du test est en-dessous du seuil de risque, on se permettra de rejeter l’hypothèse nulle.

2.2 Le cas particulier du test d'indépendance

Une étude croise deux variables quantitatives ou qualitatives, variables dont l'interdépendance au sein d'une population doit être estimée, à partir de la seule distribution d'effectifs obtenue auprès d'un échantillon d’individus. L’hypothèse nulle est celle de leur indépendance dans la population.

Dans le cas de l'indépendance (H0), la distribution théorique des individus est celle d’un tableau de proportionnalité. En effet : quelle que soit la valeur d’une variable, la distribution des individus (par rapport à l’autre variable) sera la même, toute proportion gardée. On établit alors un tableau de proportion qui devra être comparé à celui provenant de l’échantillon, en observant les mêmes sous- totaux de lignes et de colonnes pour que les deux tableaux soient comparables.

Il s'agit ensuite de calculer l'écart entre la distribution observée et cette distribution théorique, écart noté

"χ²calc" (prononcer "Khi-deux calculé"), puis de décider si cet écart est anormalement important ou non – en fait, de petits écarts sont la règle, même en cas d’indépendance, du fait de la fluctuation

d’échantillonnage.

2.3 Méthodologie du test

n observations sont faites : n individus sont évalués sur deux variables X et Y.

On suppose que la variable X présente l modalités différentes et que Y présente c modalités.

L'hypothèse nulle H0 est par convention : les variables sont indépendantes.

Le test compare la réalité à ce que donnerait en moyenne l'indépendance parfaite.

On rejette cette hypothèse lorsque les observations diffèrent trop de la distribution théorique.

1. Calcul du χ²

* tableau des observations sur n individus (échantillon observé)

Y1 Y2Yc total X

X1 obs11 obs12 … obs1c total X1

X2 obs21 obs22 … obs2c total X2

… … … …

Xl obsl1 Obsl2 … Obslc total Xl

total Y total Y1 total Y2 … total Yc N

* tableau de répartition théorique dans le cas de l'indépendance (échantillon moyen) On construit un tableau sur le même modèle, où les sous-totaux et le total général sont respectés, mais où les effectifs thij respectent les proportions des sous-totaux par rapport à n.

Correction de Yates : la loi du Khi-deux étant d’autant plus fiable que l’échantillon est grand, de petits effectifs théoriques doivent être corrigés afin d’atténuer leur impact.

Si thij < 10, alors l’écart (thij – thij) sera diminué de 0,5.

* calcul du χ² total entre observation et théorie : χ²calc =

∑ (

)

2

tableau

obs th th

(6)

2. Zone de rejet

La variable χ² exprime l'infinité des valeurs χ² (dans [0 ; +∞[) qu’il est possible d’obtenir à partir de n'importe quel échantillon possible, si l'hypothèse nulle est vraie.

Cette variable est distribuée en probabilité, par une loi du même nom, réglée par son nombre de degrés de liberté (ddl) : ddl = (l – 1)(c – 1)

A chaque χ² possible correspond une probabilité "α " qu'un échantillon a de le dépasser.

On fait alors une lecture, dans la table de la loi du χ², de la valeur limite χ²lim. correspondant au seuil de risque α choisi.

3. Comparaison et décision

Si χ²calc (calculé entre les tableaux) > χ²lim (donné par la table de la loi), alors on peut rejeter l'hypothèse nulle (l'indépendance), mais au risque α de se tromper.

Exercice 1 -

La position d'une personne vis-à-vis du tabac est-elle indépendante de son sexe au seuil de 10 % ? Voici les résultats d'une enquête portant sur 51 hommes et 66 femmes :

S : caractère "sexe" T : caractère "position vis-à-vis du tabac"

Sh : hommes Tj : n'ont jamais fumé

Sf : femmes Tf : sont fumeurs

Ta : ont arrêté observations :

effectifs théoriques sous

l'hypothèse H0 : Khi-deux partiels et total

Sh Sf Sh Sf Sh Sf

Tj 12 23 Tj Tj

Tf 31 26 Tf Tf

Ta 8 17 Ta Ta

1) Placer les sous-totaux et le total général du tableau d'observations.

2) Reporter ces valeurs dans le tableau théorique reflétant l'indépendance, puis le compléter par le calcul (6 valeurs th centrales) : l'indépendance se traduit par un tableau de proportion

3) Tableau n°3 : calculer les Khi-deux partiels ainsi que le total général, noté χ²calc. 4) Rédaction du test et de la décision, au seuil de 10 % :

Hypothèse nulle : Calcul du χ²

Valeur de la variable aléatoire χ² calculée entre l'échantillon et la théorie : χ²calc = Seuil de non-rejet

Seuil de risque : α =

Nombre de ddl : (l-1)(c-1) =

Valeur de la variable aléatoire χ² limite avant rejet : χ²lim = Comparaison et décision :

1.

2.

(7)

Exercice 2 -

Pour l’élection présidentielle, deux candidats A et B s’affrontent. Après l’élection, un sondage est fait sur 500 votants, dont 100 sont retraités, 50 sont sans emploi, et 350 sont actifs.

Les votes de ces 500 personnes sont : candidat

A B blanc /

absten.

électeurs

Sans emploi 24 16 10

Actifs 122 148 80

Retraités 36 27 37

1) Dire, au seuil de risque de 1%, si dans la population de ce pays l’opinion dépend de l’appartenance à un groupe social.

2) Que peut-on dire si on ne tient pas compte des votes blancs et des abstentions ? Exercice 3 -

On observe dans le tableau ci-contre la fréquentation de deux magasins A et B.

A l'issue d'un sondage, on note le nombre de personnes ayant effectué au moins un achat, par tranches d'âges (10 à 15 ans, etc.).

1) Dire, au seuil de 5%, si le magasin fréquenté est lié à l'âge des consommateurs.

2) Quelle tranche d'âge contribue le plus au résultat précédent ? Expliquer.

3) Donner la signification de ce "seuil de 5 %" par rapport à votre réponse à la question 1.

4) D'après la table, peut-on être plus précis quant au risque pris lors de notre affirmation ? Exercice 4 -

Dans le cadre d'un sondage, on a interrogé 100 personnes sur leur âge et leur fréquentation des salles de cinéma. On note ici X la variable "âge" et Y la variable "nombre annuel de sorties au cinéma". Le résultat du sondage est le tableau de citations à droite :

1) Par un test du Khi-2 d'indépendance, dire au seuil de 2% si, dans la population, il y a un lien ou non entre l'âge d'une personne et le nombre de sorties qu'elle consacre au cinéma.

2) Discuter du niveau de confiance que l'on peut accorder à l'affirmation "âge et fréquentation sont dépendants".

3) Repérer les Khi-2 partiels les plus importants et donner la signification de ces fortes valeurs.

Exercice 5 -

En prenant l’énoncé de l’exercice 11, effectuer un test du Khi-deux pour évaluer la dépendance entre le nombre d’essais et le nombre d’heures passées.

(8)

3 Ajustement linéaire d’un nuage de points

3.1 Moyennes mobiles

Elles s’emploient le plus fréquemment dans le cas de séries chronologiques montrant une certaine cyclicité des valeurs. La variable X représente le temps et la variable Y une valeur évoluant dans le temps.

Lorsque les valeurs Y évoluent de façon fortement oscillante, il est difficile de visualiser une tendance globale à la hausse ou à la baisse. Les moyennes mobiles sont alors là pour apporter une réponse, en lissant cette courbe oscillante.

Méthode :

* regrouper des valeurs successives de Y par paquets, toujours du même nombre n (par exemple : prendre des valeurs trois par trois, ou quatre par quatre, etc.) ; ce nombre est choisi en fonction de la périodicité des phénomènes saisonniers. Lorsque cette périodicité est paire, la moyenne mobile est calculée avec une valeur de plus, les deux observations extrêmes étant pondérés de moitié.

* le paquet suivant est constitué du paquet précédent, auquel on a retiré la première valeur et joint la valeur suivante de Y (paquets glissants) ;

* on calcule la moyenne en Y de chaque paquet (ce sont les moyennes mobiles), ainsi que sa moyenne en X (pour situer chaque paquet dans le temps) ;

* on représente graphiquement les points obtenus.

Exemple :

X (trimestres) 1 2 3 4 5 6 7 8

Y (milliers de touristes) 58 22 13 36 60 19 14 33 La périodicité est annuelle, donnée par quatre trimestres.

Etablissons la liste des moyennes mobiles prises cinq par cinq : X

Y

Cette nouvelle liste de valeurs suggère une légère tendance à la baisse.

nb :

* la première moyenne mobile est la moyenne des valeurs n° 1 (coef 1/2), 2, 3, 4 et 5 (coef 1/2).

Ici : (1/2+2+3+4+5/2)/4 = 3 en x et (58/2+22+13+36+60/2)/4 = 32,5 en y

* la deuxième moyenne mobile est la moyenne des valeurs n° 2 (coef 0,5), 3, 4, 5 et 6 (coef 0,5).

Ici : (2/2+3+4+5+6/2)/4 = 4 en x et (22/2+13+36+60+19/2)/4 = 32,375 en y

* et ainsi de suite…

3.

(9)

Exercice 6 -

Considérons l'évolution du chiffre d'affaires d'une entreprise.

Année N N+1 N+2 N+3

tri1 tri2 tri3 tri4 tri1 tri2 tri3 tri4 tri1 tri2 tri3 tri4 tri1 tri2 tri3 tri4

(M€) 28 45 49 36 30 44 48 40 28 46 52 37 31 42 54 39

Outre les variations saisonnières liées à son secteur d'activités, peut-on avoir une vision plus claire de son évolution et voir se dégager une tendance ?

Par exemple : représentons les moyennes mobiles des points groupés 5 par 5 : (faire un travail de groupe, mutualiser les calculs)

1-5 2-6 3-7 12-16

X Y

3.2 Problématique de l’ajustement linéaire

Un nuage de points peut refléter un lien entre les deux variables si ses points ne sont apparemment pas dispersés au hasard. Dans certains cas, ce nuage peut être de forme allongée, relativement fine, avec un

"axe" assez droit montrant une certaine tendance…

Peut-on trouver un axe, une droite, dans ce repère, qui "suive au mieux" l'ensemble du nuage ? Imaginons que l'on ait tracé une

droite (D), d'équation y′= ax + b.

Pour une valeur xi choisie, on observe la valeur yi (ordonnée du point Mi du nuage) et la valeur y′= axi + b (sur la droite).

définition : on appelle résidu le nombre

Le résidu d’un point Mi sera donc positif si ce point est en-dessus de la droite et négatif dans le cas contraire.

L’objectif est alors de trouver la droite qui « minimise au mieux » les résidus, celle qui « passe au plus près » de l’ensemble des points du nuage. On l'appellera droite d'ajustement ou droite de régression de la série et on dira qu'on fait un ajustement linéaire (ou affine).

La pratique consistant à modéliser un nuage de points par une droite est appelée régression linéaire.

y′ii

y

xi

4.

(10)

3.3 Droite de régression : méthode de Mayer

Certains résidus sont positifs, d'autres négatifs. L'idée de Mayer est de dire que la "meilleure" droite est celle pour laquelle la somme des résidus est nulle (les résidus négatifs compensent les résidus positifs).

définition : on appelle principe de Mayer celui dont l’ajustement conduit à

n i i

e

=

=

1

0 étude mathématique :

( )

i i i i i

e = yax − =b ya xnb

∑ ∑ ∑ ∑

Cette somme vaut zéro 1 1 1

ssi yi a xi n b 0 ssi y ax b 0

n

n

n = − − =

C’est-à-dire : pour obtenir une droite qui annule la somme des résidus, il faut et il suffit que celle-ci contienne le point moyen du nuage, G

( )

x y, . Cette propriété est en soi insuffisante pour rendre la droite de Mayer unique, puisqu'elle ne porte que sur un point. Il existe une infinité de droites annulant la somme des résidus !

Méthode de Mayer :

* :

Le nuage est divisé en deux nuages de même nombre de points (n/2) si n est pair, ou si n est impair, en un nuage de (n+1)/2 points et un autre de (n-1)/2 points. Les valeurs de x (abscisses) des points du premier nuage sont toutes inférieures à celles des points du second ;

* de G1 et G2, points moyens des deux nuages ;

* (G1G2), droite de Mayer (annulant la somme des résidus) ; tracer cette droite.

remarque : On montre que la droite qui contient les points G1 et G2, points moyens de deux "demi- nuages", est l'une d'entre elles car elle contient forcément G...

Exercice 7 -

Reprenons un des exemples cités : relation entre quantité d’engrais et production.

quantité d'engrais production recueillie parcelle n° X (kg.ha-1) Y (q.ha-1)

1 150 46

2 80 37

3 120 46

4 220 51

5 100 43

1) Déterminer les coordonnées des points moyens des deux demi-nuages.

2) Trouver par le calcul l'équation de la droite de Mayer.

3) Représenter le nuage de points et la droite de Mayer de la série.

Exercice 8 -

Déterminer l’équation de la droite de Mayer dans le cadre de l’exercice 6.

5.

(11)

3.4 Droite de régression : méthode des moindres carrés (Laplace)

3.4.1 Paramètres des séries à deux variables La moyenne de X et celle de Y sont bien entendu :

1 n

i i

x

x n

=

=

et

n i i

y

y n

=

=

1 en l’absence de contingence (données sous forme de listes) ;

r i i i

n x

x n

=

=

1 et

k

j j

j

n y

y n

= =

1 en présence de contingence (tableau croisé contenant des effectifs).

Le point particulier

La variance de X et celle de Y sont le plus simplement (si on souhaite un calcul détaillé) obtenues par le biais du théorème de Koenig :

( )

r i i

x

X x

n

=

= 2

1 2

V et

( )

2 1 2

V

r i i

y

Y y

n

=

=

en l’absence de contingence ;

( )

2 1 2

V

r i i i

n x

X x

n

=

=

et

( )

2 1 2

V

r i i i

n y

Y y

n

=

=

en présence de contingence.

On appelle covariance du couple (X,Y) le nombre :

( ) ( )( )

, 1

Cov

n

i i

i

x x y y

X Y n

=

− −

=

.

C’est une « variance commune » entre nos deux variables, paramètre indispensable pour étudier la relation qu’elles entretiennent.

Le théorème de Koenig simplifie son calcul :

(

,

)

1

Cov

n i i i

x y

X Y x y

n

=

= − ×

(ici sans contingence) et Cov

(

,

)

1 1

r k

ij i j

i j

n x y

X Y x y

n

= =

= − ×

∑∑

(avec) Sur la calculatrice :

Les moyennes et écarts types seront obtenus directement grâce au mode Stat.

Malheureusement, la calculette ne donnera ni les variances, ni la covariance.

Exercice 9 -

Calculer ou obtenir directement sur calculatrice : les moyennes, les écarts-types, les variances, la covariance, l’équation de la droite des moindres carrés.

1) En se basant sur l'exemple de l’exercice 7 (engrais/récolte),

2) En se basant sur l'exemple de l’exercice 4 (âge/fréquentation) - on choisira une moyenne d’âge de 60 ans pour la tranche 50 et plus et une moyenne de 36 séances par an pour la tranche supérieure ou égale à 24.

6.

7.

(12)

3.4.2 Méthode des moindres carrés

L'idée de cette méthode est de considérer le carré de chaque résidu, puis la somme de ces carrés, et enfin de dire que la "meilleure" droite est celle qui rend cette somme minimale (obtenir la plus petite somme possible, en considérant l'infinité des droites du plan).

définition : On appelle principe des moindres carrés celui qui consiste à trouver une droite d'ajustement conduisant à 2

1

est minimum sur le nuage

n i i

e

=

étude mathématique : posons : P a b

( )

, =

∑ (

yiaxib

)

2 : polynôme de deux variables a et b.

On peut développer ce polynôme d'au moins deux manières différentes :

( )

,

(

( i i)

) (

i i

) (

i i

)

P a b =

yaxb 2=nb22b

yax +

yax 2 (1) qui est un trinôme du second degré en b ;

( )

,

(

( i ) i

)

2 2 i2 2

(

i i i

) (

i

)

2

P a b =

y − −b ax =a

xa

x yb

x +

yb (2) qui est un trinôme du second degré en a.

Dans ce contexte, on peut suivre cet itinéraire :

* considérons a constant et b variable. P(a,b) (1) est minimal lorsque sa dérivée par rapport à b s'annule (son 1er coefficient, n, est positif), ce qui conduit à b= −y ax

* considérons que b a la valeur précédemment trouvée, et que a est variable. P(a,b) (2) est alors minimal lorsque sa dérivée par rapport à a s'annule, ce qui conduit à

( )

( )

. ,

2 2

1

Cov

1 V

i i

i

x y x y X Y

a n

x x X n

= − =

Pour les férus de calcul : essayez de retrouver les deux résultats précédents !

remarques :

* le calcul de b entraîne que la droite trouvée contient le point moyen G du nuage ; autrement dit : la droite des moindres carrés respecte le critère de Mayer.

* la droite des moindres carrés est unique, pour un nuage donné, et est donc la plus utilisée.

méthode des moindres carrés :

*

( ) ( )

X Y, a=Cov X

V et b= −y ax (on peut les obtenir sur calculatrice !)

* de régression de Y en X, DY/X : y′= ax + b

3.4.3 Autres droites (non exigible)

Il existe également la droite de régression de X en Y, qui minimise la somme des carrés des écarts en abscisses, cette fois (au lieu des écarts en ordonnées).

Par rapport aux formules encadrées ci-dessus, les rôles de X et Y sont échangés : DX/Y : x′= a’y + b’ où

( )

( )

Cov , V a X Y

′ = Y et b′= −x a y

Une conséquence : a a× =′ r2, coefficient de détermination de la série.

On définit aussi la droite des moindres rectangles (ou d’allométrie) de la série, qui fait jouer aux deux variables un rôle symétrique en minimisant les écarts d’abscisses et d’ordonnées (toujours entre les points et la droite), de sorte que

( ) ( )

y y x x

Y X

σ σ

− −

= .

( )

Y

σ

8.

(13)

Exercice 10 -

Soit la série chronologique : évolution annuelle des dépenses publicitaires d’une entreprise.

X : année 1 2 3 4 5 6 7 8 9 10 11 12 Y : dépense 41 60 55 66 87 61 90 95 82 120 125 118

Déterminer l’équation de la droite de régression de Y en X suivant la méthode des moindres carrés puis tracer cette droite sur ce graphique.

Exercice 11 -

500 personnes ayant obtenu leur permis de conduire sont classées dans le tableau ci-contre.

Elles sont réparties en fonction du nombre X de fois qu'elles ont tenté l'épreuve de conduite avant de la réussir et du nombre Y d'heures de conduite passées en présence d'un moniteur (ces 500 personnes n'ont pas bénéficié de la conduite accompagnée) avant la première tentative.

1) Qu'est-ce qu'un effectif marginal ? Donner un exemple à partir de ce tableau.

2) Décrire brièvement la marche à suivre pour saisir les données de ce tableau correctement sur calculatrice.

3) Calculer la covariance du couple (X, Y) et interpréter la valeur trouvée (on sera concret).

4) Déterminer l’équation de la droite de régression de Y en X suivant la méthode des moindres carrés.

5) a. Parmi les personnes qui ont pris entre 15 et 25 h de leçons de conduite, quel est le taux de celles qui ont obtenu leur permis au troisième essai ?

b. Parmi les personnes qui ont obtenu leur permis au troisième essai, quel est le taux de celles qui ont pris entre 15 et 25 h de leçons de conduite ?

Exercice 12 -

Un commercial analyse son activité et son efficacité. A chaque visite chez un client potentiel, il a noté le temps (X, en minutes) pendant lequel il a présenté son produit, ainsi que la quantité (Y) vendue.

L'intérieur du tableau se compose des nombres de visites correspondant à chaque couple (X, Y).

1) Que signifie l'effectif "8" du tableau ?

2) Calculer manuellement le temps moyen passé par visite.

3) Donner la covariance du couple (X, Y).

(14)

Exercice 13 -

Le tableau suivant indique le prix de vente (€) d’une machine et le nombre d’exemplaires vendus sur 4 ans.

rang de l'année 1 2 3 4

prix de vente X 300 210 270 375 nombre de ventes Y 198 240 222 160

1) Représenter le nuage des points Mi de coordonnées (xi, yi) dans le plan muni d’un repère orthogonal. On prendra pour origine du repère le point de coordonnées (210, 160), et les échelles 1 cm pour 15 € sur l’axe des abscisses et 1 cm pour 10 unités sur l’axe des ordonnées.

2) Déterminer les coordonnées du point moyen G du nuage.

3) a. Déterminer l’équation de la droite D de régression de Y sur X par la méthode des moindres carrés.

Les coefficients seront donnés avec une précision de 6 chiffres significatifs.

b. Construire cette droite de régression sur le graphique.

4) En quelle année a-t-on eu le chiffre d’affaires le plus élevé ? Quel est ce chiffre d’affaires ? pour aller plus loin :

5) On suppose maintenant que, chaque année, le nombre d’exemplaires vendus y et le prix de vente x suivent la relation : y = – 0,498 x + 349. On note S(x) le chiffre d’affaire réalisé en vendant y machines valant chacune x euros.

a. Exprimer S(x) en fonction de x.

b. Étudier les variations de la fonction S définie sur [210 ; 375].

c. En déduire le prix de vente d’une machine l’année de rang 5 si l’on veut que la somme encaissée S(x) soit maximale. Quel sera le nombre d’exemplaires vendus, à une unité près ? Quelle sera alors la somme encaissée ?

3.5 Coefficient de corrélation linéaire

Un nuage de points présente un lien plus ou moins fort entre deux variables X et Y, qui se révèle parfois sous la forme d'un nuage de forme allongée et plutôt droite : dans ce cas on parle bien entendu de corrélation linéaire.

Le but du coefficient de corrélation linéaire est de chiffrer cette tendance.

coefficient de corrélation linéaire entre X et Y :

( ) ( ) ( )

, r X Y

X Y

σ σ

= Cov

On montre que quelle que soit la série statistique, on a toujours

(en pratique, la majuscule R ou la lettre grecque ρ peuvent aussi être employées pour désigner ce coefficient)

Sur la calculatrice :

En général, une calculatrice le note r. Certains modèles ne le calculent pas.

On choisira donc toujours de calculer soi-même un coefficient de corrélation linéaire (ce qui implique de calculer au préalable la covariance…).

Interprétation de sa valeur :

Plus la corrélation linéaire est forte (nuage tendant vers une droite), plus |r| est proche de 1.

ATTENTION : LA RECIPROQUE N’EST PAS FORCEMENT VRAIE !

Un coefficient proche de 1 peut être obtenu avec un nuage de points suivant un axe légèrement courbé, dans une situation pour laquelle l’ajustement linéaire ne serait pas pertinent !

r est positif lorsque Y est globalement r est négatif lorsque Y est globalement

9.

10.

(15)

0 ≤ |r| ≤ 0,5 : corrélation linéaire faible, modèle linéaire inadapté.

0,5 ≤ |r| ≤ 0,75 : corrélation linéaire moyenne, modèle linéaire peu fiable.

0,75 ≤ |r| ≤ 0,95 : corrélation linéaire assez forte, modèle linéaire pas forcément le meilleur.

0,95 ≤ |r| ≤ 1 : corrélation linéaire très forte, modèle linéaire peut-être supérieur aux autres.

Remarques :

* lien concret ?

Un coefficient de corrélation linéaire proche de 1 (ou de -1) rend compte d'un nuage de points presque alignés (il pourrait suivre une courbe), mais ne dit pas que les variables X et Y sont concrètement liées.

exemple : en France, de 1974 à 1981, le taux de mariages a baissé de manière quasi linéaire par rapport à l’augmentation du PIB. Le quatrième graphique, ci-dessous, montre le nuage de points obtenu en croisant ces deux variables : la corrélation linéaire est très forte.

Cependant, il n'y a pas de relation de cause à effet entre les deux ! (l'évolution du taux de mariage après 1981 ne correspond plus à aucune droite d'ajustement).

* corrélation linéaire

r ne rend compte que d'une corrélation linéaire. Il se peut que la corrélation entre X et Y soit très forte, mais sans que le nuage de points suive une droite. Dans ce cas, r est éloigné de 1 et de -1, et il faudra prolonger l'étude (voir II-4). Mais si |r| est éloigné de 1, il se peut que l’ajustement linéaire soit plus adapté que tout autre pour modéliser le nuage de points – voir les deux premiers exemples ci-dessous.

Quelques exemples : revenus des employés(€)

r = 0,8449 ancienneté

taux de réussite en collège / % de CSP défavorisées

r = -0,7457

(16)

marge unitaire (€/u)

r = 0,6438 quantité (milliers d'u)

r = -0,9875

Attention, encore une fois, à la pertinence d’un ajustement linéaire : le fait de connaître r, a et b n’est pas suffisant pour nous donner le droit de représenter une série bivariée par une droite !

R. Tomassone, E. Lesquoy et C. Miller, dans leur remarquable ouvrage « La régression, nouveaux regards sur une ancienne méthode statistique » (Masson, 1983), présentent (p.21) les cinq séries de la page suivante.

Il se trouve que toutes les cinq ont, jusqu’à la troisième décimale, le même coefficient de corrélation linéaire et les mêmes coefficients de droite de régression des moindres carrés (un peu plus d’écarts pour b) ;

pourtant, les cinq nuages de points sont très différents !

(pour info, dans ces cinq exemples : 0,785 < r < 0,786 ; 0,808 < a < 0,809 ; 0,519 < b < 0,524)

X1 Y1 X2 Y2 X3 Y3 X4 Y4 X5 Y5

7 5,535 7 0,113 7 7,399 7 3,864 13,715 5,654

8 9,942 8 3,77 8 8,546 8 4,942 13,715 7,072

9 4,249 9 7,426 9 8,468 9 7,504 13,715 8,491

10 8,656 10 8,792 10 9,616 10 8,581 13,715 9,909

12 10,737 12 12,688 12 10,685 12 12,221 13,715 9,909

13 15,144 13 12,889 13 10,607 13 8,842 13,715 9,909

14 13,939 14 14,253 14 10,529 14 9,919 13,715 11,327

14 9,45 14 16,545 14 11,754 14 15,86 13,715 11,327

15 7,124 15 15,62 15 11,676 15 13,967 13,715 12,746

17 13,693 17 17,206 17 12,745 17 19,092 13,715 12,746

18 18,1 18 16,281 18 13,893 18 17,198 13,715 12,746

19 11,285 19 17,647 19 12,59 19 12,334 13,715 14,164

19 21,365 19 14,21 19 15,04 19 19,761 13,715 15,582

20 15,692 20 15,577 20 13,737 20 16,382 13,715 15,582

21 18,977 21 14,652 21 14,884 21 18,945 13,715 17,001

23 17,69 23 13,947 23 29,431 23 12,187 33,281 27,435

(17)

série 1 série 2

série 3 série 4

série 5

Exercice 14 -

Une étude a eu pour but de comparer les habitudes de dépenses des particuliers en équipements high-tech, comparées au revenu de ces personnes. Chaque colonne du tableau T ci-dessous représente, dans une région française donnée, le revenu mensuel moyen des actifs (X) et la dépense mensuelle moyenne (Y) en équipements high-tech.

région A B C D E F

revenu X (€) 1550 1620 1770 1850 1930 2000

dépense Y (€) 57 61 66 73 76 82

1) Calculer la covariance puis le coefficient de corrélation linéaire, pour le couple (X, Y).

Interpréter ces deux paramètres.

2) a. Donner, à l’aide de la calculatrice, l’équation de la droite de régression (moindres carrés) de Y en X.

b. Déterminer l’équation de la droite de Mayer relative au tableau T.

c. Ces deux droites sont légèrement différentes. Pour quel revenu donnent-elles toutes les deux la même dépense ? Quelle est la particularité de ce point commun, au sein du nuage de points initial ?

Exercice 15 -

(18)

4 Ajustement non linéaire : le changement de variable

Il est pratiqué lorsque le nuage de points semble suivre la courbe d'une fonction.

La fonction à envisager sera toujours indiquée dans un énoncé. Elle peut être notamment :

* une fonction logarithme ou exponentielle

* une fonction du second degré ou puissance

* une fonction trigonométrique Méthodologie :

1. Une des deux variables X ou Y (ou les deux !) est remplacée par une nouvelle variable, notée T par exemple, selon un mode de calcul donné par l’énoncé.

Exemple :

X 2 3 5 8

Y 9 13 28 70

Y semblant varier comme le carré de X, plus 5, l’énoncé proposera le changement de variable T = X ².

On établira alors le tableau suivant, où T remplace X : T

Y 9 13 28 70

2. On effectue une régression linéaire entre ces deux nouvelles variables, en respectant leur ordre.

Exemple :

ici, il s’agit de déterminer une équation de droite de type y′= at + b.

Si on nous impose la méthode des moindres carrés, les coefficients a et b sont simplement obtenus grâce à la calculatrice :

3. Enfin, on détermine la relation de régression de Y sur X, en réécrivant le changement de variable, pour obtenir l’équation de la courbe de régression qu’on aura éventuellement à tracer.

Exemple :

Puisque y′= 1,02526 t + 3,856, on obtient : (cette dernière est l’équation d’une parabole)

Exercice 16 -

On recueille quelques informations sur la consommation d’essence d’un deux-roues (Y, en L/100km), en fonction de la vitesse à laquelle il circule (X, en km/h) :

X 10 20 30 40 50 60 70 80 90 Y 15,2 11,6 9,3 7,8 7 6,6 6,9 8 9,6 La représentation graphique de ces données nous montre clairement qu’une régression linéaire serait totalement inadaptée pour décrire la situation. On décidera donc d’un changement de variable.

1) On propose de définir la variable T par : T = (X – 60)². Compléter le tableau suivant : T

Y 15,2 11,6 9,3 7,8 7 6,6 6,9 8 9,6

2) Effectuer une régression linéaire de Y sur T.

11.

12.

13.

(19)

Exercice 17 - ajustement du second degré

Une entreprise a noté son bénéfice réalisé Y en fonction de la quantité produite et vendue X :

X (tonnes) 2 3 5 7 11

Y (k€) 38 55 72 69 24

T

1) A l'aide de la calculatrice, donner le coefficient de corrélation linéaire entre X et Y. Interpréter.

2) On introduit la variable T = –(X – 6)².

a. Compléter le tableau.

b. Calculer, à l'aide de la calculatrice, Cov(T, Y) puis leur coefficient de corrélation linéaire.

c. Un ajustement affine de Y sur T est-il justifié ?

d. Donner l'équation de la droite de régression de Y sur T par la méthode des moindres carrés.

e. En déduire une expression de la régression de Y sur X.

Exercice 18 - ajustement du second degré

Une étude de marché a été conduite sur un nouveau type de produit. Le tableau ci-dessous donne, pour plusieurs prix de ventes proposés, le nombre de personnes prêtes à payer ce prix-là.

prix à l'unité (€) X 2 3 4 5 6 7

nombre de citations Y 66 47 34 25 18 14

1) Calculer la covariance des variables X et Y puis interpréter son signe.

2) On pose T = X(X – 20)

a. Calculer le coefficient de corrélation linéaire entre les variables T et Y.

b. Interpréter sa valeur.

c. Donner l'équation de la droite de régression de Y sur T (méthode des moindres carrés).

d. En déduire une expression développée de Y en fonction de X.

3) On examine ici le chiffre d'affaires attendu (prix unitaire de vente × nombre de ventes), si les nombres de citations obtenus lors du sondage sont autant d'unités vendues.

a. Calculer les différents chiffres d'affaires CA issus du tableau de citations.

b. Calculer, pour les mêmes valeurs de X, les chiffres d'affaires CA' obtenus grâce à la formule obtenue à la question 2)d.

c. Quel prix unitaire de vente fixeriez-vous, pour obtenir le meilleur chiffre d'affaires possible ? Exercice 19 - ajustement inverse

Une enseigne de parfumerie, lors de l'analyse de son chiffre d'affaires, met en relation les nombres (Y) de ventes de différentes marques et différents modèles de parfum avec les prix (X) des flacons.

Les résultats sont consignés dans le tableau suivant :

X, prix du flacon (€) 15 25 30 40 45 60 75 90 Y, quantité vendue 202 117 107 82 78 60 55 48

Dans les questions commençant par "calculer", on s'aidera des résultats intermédiaires de la calculatrice.

1) a. Calculer la covariance des variables X et Y ; interpréter son signe.

b. Calculer le coefficient de corrélation linéaire de X et Y ; interpréter sa valeur.

2) Pour une étude plus précise de la relation entre X et Y, on décide d'un changement de variable : 850 T= X a. Après avoir calculé les différentes valeurs de T dans une troisième liste de votre calculatrice, justifier

que la corrélation linéaire entre T et Y est excellente.

b. Donner l'équation de la droite de régression de Y en T, selon la méthode des moindres carrés.

c. Rappeler le critère des moindres carrés.

d. Déduire de la question 2)b une expression modélisée de Y en fonction de X.

e. D'après cette modélisation, combien de flacons d'un parfum coûtant 150€ est-on supposé vendre ?

(20)

5 Statistiques prévisionnelles

5.1 Estimation ponctuelle

La droite d'ajustement obtenue (sans ou avec changement de variable) permet de par son équation d'estimer une valeur de la variable expliquée Y en choisissant une valeur non explorée de la variable explicative X (en général supérieure à celles récoltées dans la série). En l'occurrence, si X représente une date, il est permis de faire une prévision sur le futur.

Par exemple : une droite d’ajustement a pour équation y = 0,85x + 22.

a. On veut une estimation de y pour x0 = 10. y’0 = b. On veut une estimation de x pour y0 = 39. x’0 =

5.2 Estimation par intervalle de confiance

La valeur donnée par une estimation ponctuelle est à prendre avec du recul : suivant la valeur du

coefficient de corrélation linéaire (donc suivant la dispersion du nuage de points), on peut lui faire plus ou moins confiance.

L'idée ici est de donner une fourchette pour l'estimation faite, plutôt qu'une valeur unique, et de savoir dire quelle est la probabilité que la valeur réelle, non encore mesurée, se trouve dans cet intervalle.

Méthode des rapports (en corrélation linéaire, pour estimer y à partir de x) : 1. Pour chaque valeur xi du tableau de données :

* calculer les valeurs y'i d'après l'équation de la droite de régression

* calculer les rapports zi = yi / y'i

* calculer la moyenne et l'écart-type des valeurs zi de la variable Z

La variable Z est considérée comme distribuée par une loi normale. Il en découle que : 95 % des valeurs de Z se trouvent dans l'intervalle

[

z−1 96, σZ ;z+1 96, σZ

]

99 % des valeurs de Z se trouvent dans l'intervalle

[

z−2 58, σZ ;z+2 58, σZ

]

2. Calculer la valeur y'0 associée à la nouvelle valeur souhaitée x0, d'après la régression linéaire.

3. On estime alors la valeur réelle y0, inconnue : calculer les bornes de l’intervalle de confiance, comme suit :

Il y a 95% de chances que y0 se trouve dans y0

(

z −1 96, σZ

) (

;y0 z +1 96, σZ

)

 Il y a 99% de chances que y0 se trouve dans y0

(

z −2 58, σZ

) (

;y0 z +2 58, σZ

)

 remarques :

* cette méthode n'est valable que pour r > 0 (corrélation positive)

* le taux (95%, 99%, etc.) s'appelle niveau de confiance de l'estimation.

Son complémentaire (5%, 1%, etc.) est le seuil de risque.

* l'amplitude d'un tel intervalle de confiance (donc l'incertitude) augmente lorsque :

Exercice 20 -

Calculer les estimations ponctuelles relatives aux questions suivantes.

1) Dans le cadre de l’exercice 10, estimation de la dépense à l’année 14.

2) Dans le cadre de l’exercice 7, estimation de la quantité d’engrais pour une récolte de 60 q/ha.

14.

15.

(21)

Exercice 21 -

Dans le cadre de l’exercice 10, on souhaite une estimation de la dépense publicitaire en 2022 par un intervalle à 95% de confiance.

1) a. Obtenir les valeurs de la variable Y ’, calculables à partir des valeurs de X par l’équation de la droite ; b. Calculer les valeurs de Z, en divisant celles de Y par celles de Y ’.

c. Donner alors la moyenne et l’écart type de Z.

2) Donner l’estimation ponctuelle de la dépense en 2022.

3) Donner le coefficient u correspondant au niveau de confiance 95%

4) Donner alors l’intervalle de confiance demandé.

Exercice 22 -

Dans le cadre de l’exercice 7, on souhaite une estimation de la récolte en utilisant 300 kg/ha d’engrais, par un intervalle à 99% de confiance.

1) a. Obtenir les valeurs de la variable Y ’, calculables à partir des valeurs de X par l’équation de la droite ; b. Calculer les valeurs de Z, en divisant celles de Y par celles de Y ’.

c. Donner alors la moyenne et l’écart type de Z.

2) Donner l’estimation ponctuelle de la récolte.

3) Donner le coefficient u correspondant au niveau de confiance 99%

4) Donner alors l’intervalle de confiance demandé.

Exercice 23 -

Sur un échantillon d’êtres humains, on a relevé la tranche d’âge (X) et l’acuité visuelle (Y, un dixième d’acuité étant noté 0,1) :

X

[5 ; 35[ [35 ; 45[ [45 ; 55[ [55 ; 65[

Y

0,3 1 5 10 20

0,6 8 12 25 18

0,9 55 30 14 6

Donner une estimation de l’acuité visuelle d’une personne de 80 ans, par un intervalle de confiance à 99%.

Exercice 24 -

On a comparé l'indice de pouvoir d'achat des habitants d'un pays au chiffre d'affaires de son industrie automobile :

pouvoir d'achat (indice) X 3,26 3,85 3,44 3,08 3,6

CA automobile (G€ = Md€) Y 9,3 9,56 9,36 9,24 9,47

1) Donner une équation de la droite de régression de Y en X suivant la méthode de Mayer.

2) Par estimation ponctuelle faite sur cette régression, dire quel indice de pouvoir d'achat il faudrait atteindre pour que l'industrie automobile atteigne un CA de 10 G€ (10 milliards d'euros).

3) Une bonne corrélation linéaire entre deux variables est-elle le signe d'une forte relation de cause à effet de l'une vers l'autre ?

Exercice 25 - moindres carrés + intervalle de confiance

Les recettes mensuelles d'un site internet commercial sont listées ci-dessous, de janvier à décembre 2018 :

en k€ : 3 5 4 8 10 9 13 12 17 18 18 21

1) Décrire en quelques mots la méthode des moindres carrés.

2) En se basant sur la tendance générale de l'évolution de la recette mensuelle, avec la méthode des

moindres carrés, donner l'intervalle de confiance à 95% de la recette de décembre 2019. (numéroter les mois à partir de 1 pour janvier 2018)

3) Quelle est la probabilité qu'en décembre 2019 la recette soit inférieure à 29,23 k€ ?

4) Représenter le nuage de points (échelle 1 cm pour deux mois), la droite de régression et enfin l'intervalle

(22)

Exercice 26 - Mayer + intervalle de confiance

Le tableau ci-dessous regroupe huit grandes villes d'un pays.

ville X Y

La variable X donne, en milliers, le nombre d'habitants de la ville ; la variable Y donne, en milliers, le nombre d'étudiants de cette ville.

1) Représenter le nuage de points de cette série.

2) Donner les coordonnées de G, point moyen du nuage.

3) a. En appliquant la méthode de Mayer, déterminer manuellement l'équation de la droite de régression du nuage de points.

b. Tracer cette droite. Contient-elle G ? c. Donner le "principe de Mayer".

A 850 58 B 623 37 C 587 38 D 360 20 E 312 16 F 275 15 G 262 12 H 244 12

4) On utilisera ici une autre droite de régression, dont l'équation est : y' = 0,07x – 6.

a. En s'appuyant sur cette droite, donner l'intervalle de confiance à 95% du nombre d'étudiants inscrits dans une ville de deux millions d'habitants.

b. Que dire de la probabilité que le nombre d'étudiants de cette ville dépasse 155000 ? Exercice 27 - ajustement logarithmique + intervalle de confiance

On a étudié la durée de vie d’un certain nombre équipements bureautique identiques. Dans le tableau suivant, ti représente la durée exprimée en milliers d'heures et R(ti) le taux d’équipements encore en service à la date ti. (par exemple, au bout de 1000 heures, il reste 90 % d’équipements en service, et R(ti) = 0,90).

ti 1 2 3 4 5 6 7 8 9

R(ti) 0,9 0,66 0,53 0,4 0,32 0,25 0,19 0,14 0,1

1) On pose yi = ln R(ti) où ln désigne le logarithme népérien. Remplir le tableau suivant puis représenter le nuage de points Mi de coordonnées (ti, yi) dans le plan muni d’un repère orthogonal.

ti 1 2 3 4 5 6 7 8 9

yi

2) Peut-on envisager un ajustement affine du nuage précédent ?

3) Déterminer par la méthode des moindres carrés une équation de la droite de régression de Y sur T.

En déduire qu’il existe deux nombres positifs k et λ, tels que l'ajustement précédent donne : R(t) = k eλt. 4) Dans cette question on prend k = 1,174 et λ = 0,266.

a. Déterminer le pourcentage d’équipements encore en service au bout de 10000 h de fonctionnement.

b. Déterminer la date t0 à laquelle 50 % des équipements sont encore en service.

5) Donner un intervalle de confiance à 99% du pourcentage d’équipements restant en service après 10000 heures de fonctionnement.

Exercice 28 -

100 enfants ont été classés par âge (X) et par taille (Y) : Y

[95 ; 105[ [105 ; 125[ [125 ; 135[

X

[3 ; 5[ 15 10 0

[5 ; 7[ 8 32 5

[7 ; 9[ 2 13 15

1) Saisissez ce tableau sur calculatrice.

2) Donner les moyennes et écarts-types de X et de Y, et calculer leur covariance.

3) Calculer leur coefficient de corrélation linéaire. Interpréter cette valeur.

4) Au vu du tableau, voit-on néanmoins se dégager une tendance ?

5) En considérant que la relation entre âge et taille est linéaire jusqu'à l'âge de 12 ans, donner l'intervalle de

(23)

IUT TC MATHEMATIQUES FORMULAIRE STATISTIQUES A DEUX VARIABLES

Table de la loi du

χ

²

Le tableau donne les valeurs χ²lim

telles que p(χ² > χ²lim) = α

α α α α

remarques :

Lorsque d (nombre de ddl) est supérieur à 30, la valeur χ²lim s’obtient avec une bonne précision par :

( )

2

2 lim

2 1

2

u d

χ = +

où u est le coefficient de loi normale centrée réduite :

α 1% 2,5% 5% 10%

u 2,3263 1,96 1,6449 1,2816

χ²lim

χ

²

α (seuil) 1 − α

Références

Documents relatifs

Dans le choix, l'évaluation et l'utilisation d'un ensemble de stratégies, il faut distinguer plusieurs étapes, â chacune desquelles peuvent intervenir différents ensembles

- Donner sa valeur approchée au dixième près. Quel nombre a-t-il choisi au départ ?.. 2) Quel nombre donne le programme de calcul si on choisit 8 comme nombre de départ ? -

Elles représentent 54%

Un exemple : nous avons récolté, auprès de 18 mamans, la taille (en cm) et le poids (en kg) de leur bébé le jour de ses trois mois (petites filles uniquement). On construit un

Réaliser une statistique à une variable sur une population de taille N, c'est mettre en relation : * une variable X (ensemble des valeurs prises par un caractère qualitatif

Exercice 12. Distribution somme – TD cours page 12.. 2) Donner les trois quartiles de la série. 3) Donner les premier et dernier déciles de cette série. 4) Réaliser une boîte à

Une pile est représentée par une structure regroupant un entier, pour le sommet, et un tableau de MAX_PILE éléments (ici, des caractères). II.1- En utilisant la

Pour obtenir exactement un billet gagnant en choisissant deux billets de cette loterie, est-il préférable de les tirer.. simultanément ou de les tirer l’un après l’autre en