• Aucun résultat trouvé

Exemples d’introduction à l’analyse des données: De la statistique à la géométrie :

N/A
N/A
Protected

Academic year: 2021

Partager "Exemples d’introduction à l’analyse des données: De la statistique à la géométrie :"

Copied!
4
0
0

Texte intégral

(1)

Analyse des données S6, Option : Gestion Prof. Mohamed El Merouani

1

Exemples d’introduction à l’analyse des données:

De la statistique à la géométrie :

Soient X1 et X2 deux variables statistiques. Notons Y1 et Y2 les variables centrées construites à partir de X1 et X2 :

1 1

1 X X

Y = − Y2 = X2X2

Convenons d’écrire les données brutes associées à chacune de ces variables, sous la forme de n-uplets :

(Y11),…, Y1i),…, Y1n)) (Y21),…, Y2i),…, Y2n)) ou, si l’on pose yij= Yji)

(y11,…,yi1,…,yn1) (y12,…,yi2,…,yn2)

Il est posible de considérer que ces n-uplets comme les composantes de deux vecteurs Y1 et Y2 éléments de IRn (espace vectoriel de dimension n).

Exemple 1 :

Soit le tableau des données correspondant à deux variables statistiques X1 et X2 : X1 X2

ω1 1 6 ω2 3 2 On a

1 =2

X X2 =4 D’où les variables centrées Y1 et Y2 :

Y1 Y2

ω1 -1 2 ω2 1 -2 On a bien

Les vecteurs Y1(-1,1) et Y2(2,-2) de IR2 ; le plan IR2 est appelé espace des individus, car chaque axe du repère orthonormé est associé à un individu

1 =0

Y Y2 =0

(2)

Analyse des données S6, Option : Gestion Prof. Mohamed El Merouani

2 2

,

=1

j

( ) ∑ ( )

=

= n

i

j ij

j y Y

Y n Var

1

1 2

( )

2

1

2 1

1

j n

i

ij Y

y n n

=

=

= et

où est la norme euclidienne du vecteur , c’est-à-

dire, dans un langage plus courant, la longueur du vecteur Pour les vecteurs de l’exemple 1 ;

( ) (

1 1

)

1

2

1 2 2

1 = + =

Y

Var

( ) (

4 4

)

4

2 1

2 = + =

Y Var 2

1 12 2

1 = + =

Y

2 2 4

2 = 4+ =

Y

La longueur du vecteur associé à une variable statistique centrée est donc proportionnelle à l’écart-type de cette variable.

Calculons, maintenant, la covariance de (Y1, Y2) :

( ) ( )(

2 2

)

1

1 1 2

1

, 1 y Y y Y

Y n Y

Cov i

n

i

i − −

=

=

) 1(

1

2 1 2

1

1 Y Y

y n n y i

n

i

i = ⋅

=

=

où (Y1.Y2) désigne le produit scalaire de Y1 et de Y2.

On rappelle que, si α est l’angle formé entre les vecteurs Y1 et Y2, alors :

) 1 ( cos

2 1

2 1

Y Y

Y Y ⋅ α =

Soit encore, compte tenu de ce qui précède,

( )

ρ

σ

α = σ = =

) ( ) (

, )

( ) (

) , cos (

2 1

2 1 2

1 2 1

Y Var Y Var

Y Y Cov Y

Y n

Y Y nCov

c’est le coefficient de corrélation linéaire entre Y1 et Y2.

Yj

Yj 2

2 2

1j ij nj

j y y y

Y = +L+ +L+ n

Y Yj)= j σ(

(3)

Analyse des données S6, Option : Gestion Prof. Mohamed El Merouani

3

Dans l’exemple 1 précédent, on peut voir clairement que les vecteurs Y1 et Y2 sont colinéaires et de sens contraire, l’angle de Y1 et Y2 est donc égal à π ; or cos π = –1, résultat que l’on retrouve en utilisant la formule (1),

Lorsque les vecteurs sont linéairement dépendants (liés), il existe tel que Y1Y2, donc cos α=±1 et réciproquement.

Quand on centre et on réduit des variables (par exemple ), on forme des vecteurs qui ont tous la même dimension. ( )

De ce fait, la variance est la distance commune à tous les vecteurs (ils se situent sur un cercle de rayon 1) et ils se positionnent les uns par rapport aux autres par le coefficient de corrélation linéaire que l’on déduit à partir de l’angle formé par les deux vecteurs.

Exemple 2 :

Soit le tableau de données suivant :

Variables Individus

X1 X2

1 4 5

2 6 7

3 8 0





= 8 6 4

X1





= 0 7 5

X2

,

Les moyennes : 6

3 4 6 8

1 = + + =

X et 4

3 0 7 5

2 = + + =

X Center les variables

(

xij xj

)

:

4-6=-2 5-4=1

6-6=0 7-4=3

8-6=2 0-4=-4

Leur normes (écart-types

Xii

σ ) :

( ) ( )

3 2 2 ] 4 4 3[ ] 1 2 2 3[

1 2 2

1

1 = X = − + = + =

X σ

et

( )

3 ] 26 4 3

1 3[

1 2 2 2

2

2 = X = + + − =

X σ

avec

8 1 2

) 2 (

cosα = −2+ − =−

*

IR

+

λ

) ( j

j j

j Y

Y Z Y

σ

= − 1 ) (Zj = Var

et













=

26 3 4 2

3

26 3 0 3

26 3 2

2 3 2

Z Xi

j ij ij

x z x

σ

= −

(4)

Analyse des données S6, Option : Gestion Prof. Mohamed El Merouani

4

1 0

1 = =

Z C et Z2 =C2 =0

2 , 1

;

1 =

= j

σyj

De plus

( )

( ) ( )

X X YY

r Cov σ σ

= , entre deux variables X et Y, mais si σ

( ) ( )

XY =1, alors r =Cov

(

X,Y

)

.

Calcul du produit matriciel Z Z p '

1 :





= −









=









=





















1 69 , 0

69 , 0 1

1 13 2

5

13 2 1 5 3

13 2

15

13 2 3 15 3 1

26 3 4 2 3

26 3 0 3

26 3 2 3

26 3 4 26

3 3 26

3

2 0 3

2 3 3 1

Le résultat de ce calcul est la matrice R des corrélations linéaires des variables. On l’appelle aussi la matrice d’information des variables.

R est une matrice symétrique, ayant des « 1 » sur la diagonale (les variances des variables) et tous ses éléments sont inférieurs ou égales à 1 en valeur absolue.

Calcul du produit matriciel ZZ’ :

V

ZZ =









=

















=

26 87 26

36 26

51

26 36 26

27 26

9 26

51 26

9 13 21

26 3 4 26

3 3 26

3

2 0 3

2 3

26 3 4 2

3

26 3 0 3

26 3 2

3

'

Cette matrice V n’est pas une matrice de corrélation, mais elle porte le nom de matrice d’information des individus. Elle est symétrique aussi.

Références

Documents relatifs

B- Ils doivent rejoindre le troupeau. C- Ils doivent trouver la forêt. B- Ils doivent traverser une rivière glaciale. C- Ils doivent traverser un lac gelé.. 10) Pourquoi les

« Les accords tripartites dits "de Matignon" sont conclus non sans mal entre Jean-Marie Tjibaou pour le FLNKS (indépendantiste), Jacques Lafleur pour le

cercles tracés sur un même plan ont encore une corde commune, lors même qu’ils ne se coupent pas ; c’est cette corde que 1B1. Gaultier a nommé leur

Structuration de l’espace : savoir situer les objets les uns par rapport aux autres.. Je découpe les pièces et reconstitue le puzzle du livre que nous

Objectif(s) : Connaître et reformuler avec ses mots la trame narrative de l’histoire.. Comprendre une histoire et la

Données en coupe transversale et séries temporelles : pour les besoin de l’analyse statistique, la distinction entre les données en coupe transversale et les

En complément de ces gestes, porter un masque quand la distance d’un mètre ne peut pas être

En complément de ces gestes, porter un masque quand la distance d’un mètre ne peut pas être respectée. et en présence d’élèves pour les personnels Se