• Aucun résultat trouvé

4 Nuage de points

N/A
N/A
Protected

Academic year: 2022

Partager "4 Nuage de points"

Copied!
8
0
0

Texte intégral

(1)

Document disponible àhttp://www.univ-montp3.fr/miap/ens/AES/L1/optionmath.

AES option mathématique Année 2004–2005

Notes de cours : ajustement linéaire

1 Cadre : mesure conjointe de deux caractères

On se place dans le cas où, surune seulepopulation, on étudiedeux caractèresquantita- tifs dans le but d’exhiber un lien entre ces deux caractères.

SoitX le premier caractère etY le second. On note {m1,m2, . . . ,mk} les modalités deX et {m10,m20, . . . ,m`0} les modalités deY. Pour un couple de modalités (mi,m0j), on note ni j l’effectif des individus associés à la modalitémi pourX et m0j pourY. La somme de toutes les valeursni j lorsque (i,j) parcourt {1, . . . ,k}×{1, . . . ,`} est donc l’effectif total qu’on note n:

X

(i,j)∈{1,...,k}×{1,...,`}

ni j=n. (1)

La fréquence associée au couple de modalités (mi,mj) est la proportion, parmi toute la po- pulation, des individus associés à la modalitémi pourX et m0j pourY. On note fi j cette fréquence et on a

fi j=ni j n .

On déduit, en divisant parnl’équation (1) que la somme de toutes les valeursni j lorsque (i,j) parcourt {1, . . . ,k}×{1, . . . ,`} vaut 1 :

X

(i,j)∈{1,...,k}×{1,...,`}

fi j=1.

2 Tableau de contingence

Les résultats sont généralement représentés dans untableau de contingenceen effectifs (ou en fréquences) : à chaque modalité deX, on associe une ligne, à chaque modalité de Y, on associe une colonne puis à l’intersection de la ligne associée à mi et de la colonne associée à m0j, on place l’effectif ni j (ou la fréquence fi j) – voir les tableaux 1et 2page suivante.

(2)

m10 . . . m0j . . . m`0 m1 n11 n1j n1`

...

mi ni1 ni j ni`

...

mk nk1 nk j nk`

TAB. 1 – Tableau de contingence en effectifs m10 . . . m0j . . . m`0

m1 f11 f1j f1`

...

mi fi1 fi j fi` ...

mk fk1 fk j fk`

TAB. 2 – Tableau de contingence en fréquences

3 Moyennes et variances

À partir des observations conjointes deX, on peut calculer la moyenne Moy(X) deX et la moyenne Moy(Y) deY.

Étant donné une modalitémideX, un individu associé à cette modalité est associé à une (et une seule) des modalités deY. Ainsi, l’effectif,ni, des individus associés à la modalité mi de X est la somme des effectifs associés aux couples de modalités (mi,m0j) lorsque j parcourt {1, . . . ,`} :

ni= X` j=1

ni j=ni1+ · ·· +ni`.

On rappelle que la moyenne deX est la somme des modalités deX multipliée par les effectifs correspondant divisée par l’effectif total, ainsi :

Moy(X)= 1 n

k

X

i=1

nimi=n1m1+ · ·· +nkmk

n . (2)

Étant donné une modalitém0j deY, un individu associé à cette modalité est associé à une (et une seule) des modalités deX. Ainsi, l’effectif,nj, des individus associés à la modalité m0j de Y est la somme des effectifs associés aux couples de modalités (mi,m0j) lorsque i parcourt {1, . . . ,k} :

nj=

k

X

i=1

ni j=n1j+ · ·· +nk j puis

Moy(Y)= 1 X`

njm0j=n1m10+ · ·· +n`m0`

. (3)

(3)

De la même façon puisque la variance est une moyenne (à savoir celle des carrés des écarts à la moyenne), on a

Var(X)= 1 n

k

X

i=1

ni¡

mi−Moy(X)¢2

=n1

¡m1−Moy(X)¢2

+ · ·· +nk

¡mk−Moy(X)¢2

n (4)

et

Var(Y)= 1 n

X` j=1

nj³

m0j−Moy(Y)

´2

=n1¡

m10−Moy(Y)¢2

+ · ·· +n`¡

m`0−Moy(Y)¢2

n . (5)

4 Nuage de points

On traîte le cas de caractèresdiscret. Lorsque le caractère est continu, on se ramène au cas discret en remplaçant les intervalles que sont les modalités par leurs centres.

Pour tracer le nuage de points des caractères X etY dans un repère orthonormé1, on représente chaque couple de modalités (mi,m0j) d’effectifni j non nul par un pointMi j de coordonnées (mi,m0j). Il faut imaginer que chaque point est muni d’un poids égal à l’effec- tif associé au couple de modalités qu’il représente. Le nombre total de points est donc le nombre de couples de modalitésk`et la somme des poids des points est l’effectifn.

On peut alors donner une interprétation géométrique de la moyenne : le centre de gra- vité du nuage de points est le point de coordonnées¡

Moy(X), Moy(Y)¢

. Cela signifie que si l’on imagine les points du nuage placés (avec leurs poids correspondants) sur une plaque horizontal, il suffit de placer une tige vertical sous le plateau en appui sur le point de coor- données¡

Moy(X), Moy(Y)¢

pour maintenir le plateau en équilibre horizontal. On donne une preuve de ce fait au paragraphe7.1page6.

Chercher àexpliquer Y par X c’est chercher une fonction dont le graphe approche bien le nuage de points. C’est un problème compliqué2que l’on ne va étudier que dans un cas simple.

5 Régression linéaire : méthode des moindres carrés

Quand on fait de la régression linéaire, on cherche à approcher un nuage de points par le graphe d’une fonction parmi les plus simples : une droite. Les erreurs sont mesurées à l’aide des carrés des écarts verticaux entre les points du nuage et la droite (voir la figure1page suivante). L’erreur totale commise est la somme des carrés des écarts verticaux entre les points du nuage et la droite. En procédant de la sorte, on met en valeur les grands écarts verticaux et on dévalorise les petits écarts3.

1On demande donc qu’il y ait un axe vertical et un axe horizontal et que l’echelle soit la même sur les deux axes.

2La définition de « approche bien » est déjà en soi un problème compliqué.

3On comparera avec la notion de variance. Voir le cours « Paramètres statistiques » disponible sur http://www.univ-montp3.fr/miap/ens/AES/XA100M/index.html

(4)

0 X Y

D

mi

m0j Mij

Ecart vertical´

FIG. 1 – Écart vertical entreMi j etD

Pour décrire le résultat, on a besoin d’introduire lacovariancedeX etY : c’est le nombre défini par

Cov(X,Y)= 1 n

X

(i,j){1,...,k}×{1,...,`}

ni jmim0j−Moy(X) Moy(Y).

On peut retenir que c’est la moyenne des produits moins le produit des moyennes.

On montre alors (voir le paragraphe7.2page7) que la droite pour laquelle l’erreur est la plus petite est la droite passant par le point de coordonnées¡

Moy(X), Moy(Y)¢

et de coeffi- cient directeur la covariance Cov(X,Y) deX etY divisée par la variance Var(X) deX. C’est donc la droite d’équation

y=ax+b avec

a=Cov(X,Y) Var(X) et

b=Moy(Y)−Cov(X,Y)

Var(X) Moy(X).

On peut aussi déterminer dans quelle mesure la droite trouvée approche bien le nuage de points. Pour cela, on introduit lecoefficient de corrélation

r(X,Y)= Cov(X,Y) pVar(X) Var(Y)

et on montre (voir le paragraphe7.3page8) que plus le coefficientr(X,Y) est proche de 1 ou−1, meilleure est l’approximation. On verra aussi au paragraphe7.3que, lorsque Var(X)<

Var(Y), on commet une erreur moins grande en expliquantX parY qu’en expliquantY par X. Pour estimerX parY, on utilise les mêmes formules pouraetb en échangeant les rôles deX etY.

6 Un exemple simple

On étudie deux caractéres X et Y dont le tableau de contigence est le tableau 3page

(5)

1 2 3 4 5

1 0 0 0 0 1

2 0 0 1 1 0

3 0 0 1 1 0

4 0 1 0 0 0

5 0 0 0 0 0

TAB. 3 – On calcule

Moy(X)=3, 14 Moy(Y)=2, 86 Var(X)=1, 55 Var(Y)=1, 55 et

Cov(X,Y)= −1, 41.

Le coefficient directeur de la droite d’ajustement est a= −0, 91 et le coefficient de corrélation est

r= −0, 91.

Le nuage et la droite d’ajustement sont donnés à la figure2.

0 X

Y

G

FIG. 2 – Nuage et droite d’ajustement associés au tableau3

(6)

7 Annexes

7.1 Calcul du centre de gravité du nuage de points

SoitGle centre de gravité du nuage de points. Ce nuage est composé des pointsMi j de coordonnées (mi,m0j) et de poidsni j. Par définition du centre de gravitéG, on a alors

X

(i,j){1,...,k}×{1,...,`}

ni j# GMi j=#

0 . (6)

On note (xG,yG) les coordonnées deG. La considération des abscisses dans (6) conduit à X

(i,j){1,...,k}×{1,...,`}

ni j(mixG)=0 donc

X

(i,j){1,...,k}×{1,...,`}

ni jmi= X

(i,j){1,...,k}×{1,...,`}

ni jxG

=nxG grâce à (1) puis

xG= 1 n

X

(i,j)∈{1,...,k}×{1,...,`}

ni jmi. (7)

Mais

X

(i,j){1,...,k}×{1,...,`}

ni jmi= Xk i=1

à ` X

j=1

ni j

! mi

=

k

X

i=1

nimi. L’équation (7) devient donc

xG= 1 n

k

X

i=1

nimi =Moy(X) grâce à (2). La considération des ordonnées dans (6) conduit à

X

(i,j)∈{1,...,k}×{1,...,`}

ni j(m0jyG)=0 donc

X

(i,j)∈{1,...,k}×{1,...,`}

ni jm0j= X

(i,j)∈{1,...,k}×{1,...,`}

ni jyG

=n yG grâce à (1) puis

yG= 1 X

ni jm0j. (8)

(7)

Mais

X

(i,j)∈{1,...,k}×{1,...,`}

ni jm0j= X` j=1

à k

X

i=1

ni j

! m0j

= X` j=1

njm0j. L’équation (8) devient donc

yG= 1 n

X` j=1

njm0j=Moy(Y) grâce à (3).

7.2 Détermination de la droite d’ajustement linéaire

L’écart vertical entre le point Mi j de coordonnées (mi,m0j) et la droite d’équation y = ax+bétantm0j−(ami+b), on chercheaetbpour que la grandeur

T(a,b)= 1 n

X

(i,j){1,...,k}×{1,...,`}

ni j[m0j−(ami+b)]2 soit minimum. En développant le carré, on obtient

T(a,b)= X

(i,j)∈{1,...,k}×{1,...,`}

ni j(m0j2+a2m2i +2abmi+b2−2amim0j−2bm0j) et donc

T(a,b)= X` j=1

njm0j2+a2 Xk i=1

nimi2+2ab Xk i=1

nimi+b2

−2a X

(i,j){1,...,k}×{1,...,`}

ni jmim0j−2b X` j=1

njm0j. On en déduit

T(a,b)=Moy(Y2)+a2[Var(X)+Moy(X)2]+2abMoy(X)+b2

−2a[Cov(X,Y)+Moy(X) Moy(Y)]−2bMoy(Y). (9) Pour les valeurs deaetbréalisant le minimum deT(a,b), on a

∂T

∂a =0 (10)

et ∂T

∂b =0. (11)

Grâce à l’équation9, on calcule

∂T

∂b =2aMoy(X)+2b−2 Moy(Y)

(8)

et donc, l’équation11page précédente devient

aMoy(X)+b=Moy(Y). (12)

Le point de coordonnées¡

Moy(X), Moy(Y)¢

appartient à la droite recherchée. Grâce à l’équa- tion9page précédente, on calcule

∂T

∂a =2a[Var(X)+Moy(X)2]+2bMoy(X)−2[Cov(X,Y)+Moy(X) Moy(Y)].

En utilisant l’équation12, on

b=Moy(Y)−aMoy(X) (13)

et donc

∂T

∂a =2a[Var(X)+Moy(X)2]+2[Moy(Y)−aMoy(X)] Moy(X)−2[Cov(X,Y)+Moy(X) Moy(Y)].

L’équation10page précédente devient alors

a=Cov(X,Y)

Var(X) . (14)

7.3 Calcul d’erreur en ajustement linéaire

L’erreur commise en remplaçant le nuage de points par la droite trouvée au paragraphe précédent estT(a,b) calculée en9page précédente. En remplaçantaetbpar leurs valeurs trouvée en14et13on obtient

T(a,b)=Var(Y)

·

1− Cov(X,Y)2 Var(X) Var(Y)

¸ .

Références

Documents relatifs

Voici la composition de l’équipe de France lors d’un match amical.. Représenter le nuage de points dans

Calculer le poids moyen et la taille moyenne et placer le point correspondant (en rouge). Représenter les nuages de points en choisissant judicieusement

Plutôt que simplement étudier un seul caractère sur une population, on peut s'intéresser à l'étude de deux caractères en même temps.. STATISTIQUES Dans certains cas, le nuage

Théorème 90% des valeurs de d 2 obtenues lors de la simulation de la loi équirépartie sont infé- rieures à D 9 (le neuvième décile) ; si la valeur observée d 2 obs trouvée lors

Exemple 4 En utilisant la droite de régression (trouvée à l’exemple précédent), déterminer la charge à laquelle peut résister une pièce dont la teneur en carbone est 0,72.

Déterminer la droite de régression linéaire par la méthode des moindres carrés.. Vérification par

La représentation graphique d une suite est un nuage de points (on ne relie pas

Cas n°2 : Si les points décrivent une courbe, tracer à la main une courbe qui ne passe pas forcément par tous les points, mais décrit au mieux l’allure de l’évolution des