• Aucun résultat trouvé

Régression linéaire dans R^2

N/A
N/A
Protected

Academic year: 2022

Partager "Régression linéaire dans R^2"

Copied!
44
0
0

Texte intégral

(1)

www.ugb.sn

Régression linéaire dans R

2

L3{MA,Info_SI,Info_Reseaux}- UFR S.A.T

Pr. Ousmane THIARE

othiare@ugb.edu.sn [www.ousmanethiare.com]

16 avril 2020

(2)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la

régression

Régression linéaire dans R

2

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 2/32

(3)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Notions d’espace vectoriel euclidien

Espace vectorielRn

Soit n un entier strictement positif etRle corps des nombres réels.

L’ensembleRndes n-uples(x1,· · · ,xn)de nombres réels est muni de sa structure usuelle d’espace vectoriel réel, définie par les opérations :

(x1,· · ·,xn) + (x10,· · · ,xn0) = (x1+x10,· · ·,xn+xn0)

l(x1,· · ·,xn) = (lx1,· · ·,lxn),l ∈R.

On identifiera un élémentX = (x1,· · ·,xn)deRnavec la

matriceX =

 x1

... xi ... xn

à n lignes et 1 colonne.

(4)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Notions d’espace vectoriel euclidien

Espace vectorielRn

Soit n un entier strictement positif etRle corps des nombres réels.

L’ensembleRndes n-uples(x1,· · · ,xn)de nombres réels est muni de sa structure usuelle d’espace vectoriel réel, définie par les opérations :

(x1,· · ·,xn) + (x10,· · · ,xn0) = (x1+x10,· · ·,xn+xn0) l(x1,· · ·,xn) = (lx1,· · ·,lxn),l ∈R.

On identifiera un élémentX = (x1,· · ·,xn)deRnavec la

matriceX =

 x1

... xi ... xn

à n lignes et 1 colonne.

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 3/32

(5)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Notions d’espace vectoriel euclidien

Espace vectorielRn

Soit n un entier strictement positif etRle corps des nombres réels.

L’ensembleRndes n-uples(x1,· · · ,xn)de nombres réels est muni de sa structure usuelle d’espace vectoriel réel, définie par les opérations :

(x1,· · ·,xn) + (x10,· · · ,xn0) = (x1+x10,· · ·,xn+xn0) l(x1,· · ·,xn) = (lx1,· · ·,lxn),l ∈R.

On identifiera un élémentX = (x1,· · ·,xn)deRnavec la

matriceX =

 x1

... xi ... xn

à n lignes et 1 colonne.

(6)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Notions d’espace vectoriel euclidien

Opérations dansRn

Les opérations dansRn sont alors définies par des opérations sur les matrices :

Addition :

 x1

... xi ... xn

 +

 x10

... xi0

... xn0

=

x1+x10 ... xi+xi0

... xn+xn0

(x1,· · · ,xn) + (x10,· · · ,xn0) = (x1+x10,· · ·,xn+xn0)

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 4/32

(7)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Notions d’espace vectoriel euclidien

Opérations dansRn

Multiplication par un scalaire :

l

 x1

... xi ... xn

=

 lx1

... lxi

... lxn

 l(x1,· · · ,xn) = (lx1,· · · ,lxn)

DansRn, les n élémentsei,i∈ {1,· · · ,n}, dont toutes les coordonnées sont nulles, sauf laimequi vaut 1, forment une base, appelée labase canoniquedeRn. Tout élémentX = (x1,· · · ,xn)deRns’écrit :X =

i=n

X

i=1

xiei

(8)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Notions d’espace vectoriel euclidien

Opérations dansRn

Multiplication par un scalaire :

l

 x1

... xi ... xn

=

 lx1

... lxi

... lxn

 l(x1,· · · ,xn) = (lx1,· · · ,lxn)

DansRn, les n élémentsei,i∈ {1,· · · ,n}, dont toutes les coordonnées sont nulles, sauf laimequi vaut 1, forment une base, appelée labase canoniquedeRn. Tout élémentX = (x1,· · · ,xn)deRns’écrit :X =

i=n

X

i=1

xiei

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 5/32

(9)

Notions d’espace vectoriel euclidien Produit scalaire dansRn

Propriétés Approche euclidienne de la régression

Produit scalaire dans R

n

Définition

Soit F une application deRn×RdansR.

On notera aussihX|F|YiouhX|YiF, le nombre réel F(X,Y).

On appelle produit scalaire dansRn, toute application F deRn×RndansRqui possède les propriétés suivantes : a) Bilinéarité

Linéarité par rapport à la première variable : F(X +X0,Y) =F(X,Y) +F(X0,Y)et

F(lX,Y) =lF(X,Y), quels que soient l dansR, X,X0,Y ∈Rn; cette propriété s’écrit aussi

hX +X0|F|Yi=hX|F|Yi+hX0|F|Yi

(10)

Notions d’espace vectoriel euclidien Produit scalaire dansRn

Propriétés Approche euclidienne de la régression

Produit scalaire dans R

n

Définition

a) Bilinéarité

Linéarité par rapport à la deuxième variable : F(X,Y +Y0) =F(X,Y) +F(X,Y0)et

F(X,lY) =lF(X,Y), quels que soient l dansR, X,X0,Y ∈R; cette propriété s’écrit aussi

hX|F|Y +Y0i=hX|F|Yi+hX|F|Y0i

b) Symétrie

F(X,Y)=F(Y,X), quels que soient X et Y dansRn: hX|F|Yi=hY|F|Xi

c) Positivité

F(X,X) est un nombre réel supérieur ou égal à 0, quel que soit X dansRn:hX|F|Xi=0

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 7/32

(11)

Notions d’espace vectoriel euclidien Produit scalaire dansRn

Propriétés Approche euclidienne de la régression

Produit scalaire dans R

n

Définition

a) Bilinéarité

Linéarité par rapport à la deuxième variable : F(X,Y +Y0) =F(X,Y) +F(X,Y0)et

F(X,lY) =lF(X,Y), quels que soient l dansR, X,X0,Y ∈R; cette propriété s’écrit aussi

hX|F|Y +Y0i=hX|F|Yi+hX|F|Y0i

b) Symétrie

F(X,Y)=F(Y,X), quels que soient X et Y dansRn: hX|F|Yi=hY|F|Xi

c) Positivité

F(X,X) est un nombre réel supérieur ou égal à 0, quel que soit X dansRn:hX|F|Xi=0

(12)

Notions d’espace vectoriel euclidien Produit scalaire dansRn

Propriétés Approche euclidienne de la régression

Produit scalaire dans R

n

Définition

a) Bilinéarité

Linéarité par rapport à la deuxième variable : F(X,Y +Y0) =F(X,Y) +F(X,Y0)et

F(X,lY) =lF(X,Y), quels que soient l dansR, X,X0,Y ∈R; cette propriété s’écrit aussi

hX|F|Y +Y0i=hX|F|Yi+hX|F|Y0i

b) Symétrie

F(X,Y)=F(Y,X), quels que soient X et Y dansRn: hX|F|Yi=hY|F|Xi

c) Positivité

F(X,X) est un nombre réel supérieur ou égal à 0, quel que soit X dansRn:hX|F|Xi=0

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 7/32

(13)

Notions d’espace vectoriel euclidien Produit scalaire dansRn

Propriétés Approche euclidienne de la régression

Produit scalaire dans R

n

Définition

d) Non dégénérescence F(X,X)=0 entraine X=0Rn :

hX|F|Xi=0⇒X =0

Autrement dit, le vecteur 0= (0,· · · ,0,· · · ,0)deRnest l’unique solution de l’équation F(X,X)=0.

On dit aussi qu’un produit scalaire surRnest uneforme bilinéaire symétrique positive non dégénérée. Le mot

"forme" fait simplement référence au fait que les valeurs sont des scalaires. Lorsqu’il est muni d’un produit scalaire,Rnest appelé unespace vectoriel euclidien.

(14)

Notions d’espace vectoriel euclidien Produit scalaire dansRn

Propriétés Approche euclidienne de la régression

Produit scalaire dans R

n

Exemples

a) Produit scalaire canonique

L’application deRn×RndansRdéfinie par : ((x1,· · · ,xn),(y1,· · ·,yn))7→ hX|Yi=XtY =

x1· · · ,xj,· · · ,xn

 y1

... yi ... yn

=

i=n

X

i=1

xiyi est un produit

scalaire surRnqu’on appelle leproduit scalaire canoniquedeRn.

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 9/32

(15)

Notions d’espace vectoriel euclidien Produit scalaire dansRn

Propriétés Approche euclidienne de la régression

Produit scalaire dans R

n

Exemples

b) Produit scalaire défini par une matrice diagonale à éléments positifs

Soit une matrice réelle M à n lignes et n colonnes dont tous les éléments en dehors de la diagonale principale sont nuls et dont tous les éléments de la diagonale principale sont desnombres réels strictement positifs.

Alors l’application :(X,Y)7→ hX|M|Yi=XtMY =

(x1· · ·,xj,· · · ,xn)M

 y1

... yi ... yn

=

mijxjyi =miixiyi est un produit scalaire surRn. Mmat des poids.

(16)

Notions d’espace vectoriel euclidien Produit scalaire dansRn

Propriétés Approche euclidienne de la régression

Produit scalaire dans R

n

Exemples

b) Produit scalaire défini par une matrice diagonale à éléments positifs

Le produit scalaire canonique correspond au cas où la matrice M est la matrice unitéIn(tous les éléments de la diagonale sont égaux à 1 et les élements en dehors de la diagonale sont 0) : tous les poids sont égaux à 1.

Autre exemple :M =D1

n = 1nIn. Tous les poids sont égauxà1n et la somme des poids vaut 1.

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 11/32

(17)

Notions d’espace vectoriel euclidien Produit scalaire dansRn

Propriétés Approche euclidienne de la régression

Produit scalaire dans R

n

Exemples

b) Produit scalaire défini par une matrice diagonale à éléments positifs

Le produit scalaire canonique correspond au cas où la matrice M est la matrice unitéIn(tous les éléments de la diagonale sont égaux à 1 et les élements en dehors de la diagonale sont 0) : tous les poids sont égaux à 1.

Autre exemple :M =D1

n = 1nIn. Tous les poids sont égauxà1n et la somme des poids vaut 1.

(18)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Matrice d’un produit scalaire

Pour tout produit scalaire F deRn, on peut écrire : F(X,Y) =F(

i=n

X

i=1

xiei,

j=n

X

j=1

yjej) =

n

X

i,j=1

F(ei,ej)xiyj =

(x1,· · · ,xi,· · ·,xn)MF

 y1

... yj ... yn

La matriceMF = [F(ei,ej)]

s’appelle lamatrice du produit scalaireF dans la base canonique. Cette matrice est symétrique :

F(ei,ej) =F(ej,ei).

Les éléments de sa diagonale sont :F(ei,ej)>0.

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 12/32

(19)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Matrice d’un produit scalaire (suite et fin)

Remarquons que ces propriétés ne sont pas suffisantes : une matrice symétrique dont les éléments de la diagonale sont des nombres réels strictement positifs bilinéaire ((x1,x2),(y1,y2))7→(x1,x2)

1 2 2 1

y1 y2

qu’elle définit n’est pas un produit scalaire car le "produit scalaire" du vecteur propre (1,-1) pour la valeur propre négative, par lui même, est un nombre réel strictement négatif

(1,−1) 1 2

2 1 1

−1

=−2

La matrice 1 2

2 1

n’est donc pas la matrice d’un produit scalaire surR2, bien qu’elle soit symétrique et que les éléments de sa diagonale soient strictement positifs.

(20)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Matrice d’un produit scalaire

Théorème

En réalité, pour qu’une matrice carrée symétrique réelle soit la matrice d’un produit scalaire, il faut et il suffit que toutes ses valeurs propres, qui sont toujours des nombres réels, soient strictement positives.

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 14/32

(21)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Norme d’un vecteur

Si F est un produit scalaire surRn, le nombre réel positif kXkF =p

F(X,X)s’appelle laF-normede X, ou F-longueurde X. Quand il n’y a pas de confusion à craindre, on parlera simplement de norme ou de longueur, qu’on noterakXkau lieu dekXkF.

On dit qu’un vecteur estnormé pour Fsi sa F-longueur est 1.

Par exemple, dansR2muni du produit scalaire canonique, la longueur deX = (x1,x2)estkXkF =

q

x12+x22et le vecteur (1,0) est normé.

(22)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Angle de deux vecteurs

Etant donnés deux vecteurs X et Y deRnet un produit scalaire F surRn, pour tout nombre réel l, on a :

F(X +lY,X +lY) =kX +lYk2F ≥0

l2F(Y,Y) +l(F(Y,X) +F(X,Y)) +F(X,X)≥0 l2F(Y,Y) +2lF(X,Y) +F(X,X)≥0

kYk2Fl2+2hX|YiFl+kXk2F ≥0

Comme cette relation est vraie pour tout nombre réel l, c’est que le déterminant de ce trinôme du second degré est négatif :

(hX|YiF)2− kXk2FkYk2F ≤0=⇒ |hX|YiF| ≤ kXkFkYkF (inégalité de Schwarz).

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 16/32

(23)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Angle de deux vecteurs

Etant donnés deux vecteurs X et Y deRnet un produit scalaire F surRn, pour tout nombre réel l, on a :

F(X +lY,X +lY) =kX +lYk2F ≥0

l2F(Y,Y) +l(F(Y,X) +F(X,Y)) +F(X,X)≥0

l2F(Y,Y) +2lF(X,Y) +F(X,X)≥0 kYk2Fl2+2hX|YiFl+kXk2F ≥0

Comme cette relation est vraie pour tout nombre réel l, c’est que le déterminant de ce trinôme du second degré est négatif :

(hX|YiF)2− kXk2FkYk2F ≤0=⇒ |hX|YiF| ≤ kXkFkYkF (inégalité de Schwarz).

(24)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Angle de deux vecteurs

Etant donnés deux vecteurs X et Y deRnet un produit scalaire F surRn, pour tout nombre réel l, on a :

F(X +lY,X +lY) =kX +lYk2F ≥0

l2F(Y,Y) +l(F(Y,X) +F(X,Y)) +F(X,X)≥0 l2F(Y,Y) +2lF(X,Y) +F(X,X)≥0

kYk2Fl2+2hX|YiFl+kXk2F ≥0

Comme cette relation est vraie pour tout nombre réel l, c’est que le déterminant de ce trinôme du second degré est négatif :

(hX|YiF)2− kXk2FkYk2F ≤0=⇒ |hX|YiF| ≤ kXkFkYkF (inégalité de Schwarz).

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 16/32

(25)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Angle de deux vecteurs

Etant donnés deux vecteurs X et Y deRnet un produit scalaire F surRn, pour tout nombre réel l, on a :

F(X +lY,X +lY) =kX +lYk2F ≥0

l2F(Y,Y) +l(F(Y,X) +F(X,Y)) +F(X,X)≥0 l2F(Y,Y) +2lF(X,Y) +F(X,X)≥0

kYk2Fl2+2hX|YiFl+kXk2F ≥0

Comme cette relation est vraie pour tout nombre réel l, c’est que le déterminant de ce trinôme du second degré est négatif :

(hX|YiF)2− kXk2FkYk2F ≤0=⇒ |hX|YiF| ≤ kXkFkYkF (inégalité de Schwarz).

(26)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Angle de deux vecteurs (suite et fin)

Si les deux vecteurs X et Y sont différents de 0, leur longueur n’est pas nulle, le produit de leurs longueurs n’est pas nul, le rapport hX|Yiφ

kXkφkYkφ est compris entre -1 et 1, et il existe donc un angle compris entre 0 et p radians dont le cosinus est égal au rapport hX|Yiφ

kXkφkYkφ.

Par définition, cet angle unique a compris entre 0 et p, vérifiant :

cos a= hX|Yiφ

kXkφkYkφ = hX|φ|Yi kXkφkYkφ

est appelé l’angle des deux vecteurs non nulsX et Y.

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 17/32

(27)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Orthogonalité

Etant donnés deux vecteurs X et Y deRnet un produit scalaire F surRn, on dit que X et Y sontF-orthogonaux (ou simplement "orthogonaux" s’il n’y a pas de confusion à craindre) si, et seulement si, leur produit scalaire est nul :

F(X,Y) =hX|YiF =0 Exemples :

0 est F-orthogonal à tout vecteur deRn.

L’angle de deux vecteurs non nuls F-orthogonaux est π 2 La base canonique deRnmuni du produit scalaire canonique est formée de vecteurs normés orthogonaux deux à deux : on parle alors debase orthonormée.

(28)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Orthogonalité

Etant donnés deux vecteurs X et Y deRnet un produit scalaire F surRn, on dit que X et Y sontF-orthogonaux (ou simplement "orthogonaux" s’il n’y a pas de confusion à craindre) si, et seulement si, leur produit scalaire est nul :

F(X,Y) =hX|YiF =0 Exemples :

0 est F-orthogonal à tout vecteur deRn.

L’angle de deux vecteurs non nuls F-orthogonaux est π 2

La base canonique deRnmuni du produit scalaire canonique est formée de vecteurs normés orthogonaux deux à deux : on parle alors debase orthonormée.

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 18/32

(29)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Orthogonalité

Etant donnés deux vecteurs X et Y deRnet un produit scalaire F surRn, on dit que X et Y sontF-orthogonaux (ou simplement "orthogonaux" s’il n’y a pas de confusion à craindre) si, et seulement si, leur produit scalaire est nul :

F(X,Y) =hX|YiF =0 Exemples :

0 est F-orthogonal à tout vecteur deRn.

L’angle de deux vecteurs non nuls F-orthogonaux est π 2 La base canonique deRnmuni du produit scalaire canonique est formée de vecteurs normés orthogonaux deux à deux : on parle alors debase orthonormée.

(30)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Projeté orthogonal

Soient X et Y deux vecteurs non nuls deRnet F un produit scalaire surRn.

Il existe un unique vecteur Z deRn, proportionnelàY tel que X-Z soit orthogonalàY.

Preuve

Pour tout vecteur Z, on peut écrire : hX −Z|YiF =hX|YiF − hZ|YiF

Si l’on prend un Z proportionnel à Y, on a Z=aY, donc :

hX −Z|YiF =hX|YiF −ahY|YiF =hX|YiF −akYk2F

Pour que X-Z soit orthogonal à Y, soithX −Z|YiF =0, il faut et il suffit que l’on prennea= hX|Yiφ

kYk2φ

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 19/32

(31)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Projeté orthogonal

Soient X et Y deux vecteurs non nuls deRnet F un produit scalaire surRn.

Il existe un unique vecteur Z deRn, proportionnelàY tel que X-Z soit orthogonalàY.

Preuve

Pour tout vecteur Z, on peut écrire : hX −Z|YiF =hX|YiF − hZ|YiF

Si l’on prend un Z proportionnel à Y, on a Z=aY, donc : hX −Z|YiF =hX|YiF −ahY|YiF =hX|YiF −akYk2F Pour que X-Z soit orthogonal à Y, soithX −Z|YiF =0, il faut et il suffit que l’on prennea= hX|Yiφ

kYk2φ

(32)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Propriété du projeté orthogonal

Le projeté orthogonalZ0de X sur Y est le vecteur Z deRn proportionnel à Y, qui minimisekX−Zk2F.

Preuve

Soit Z un vecteur proportionnel à Y SoitZ0= hX|Yiφ

kYk2φ Y le projeté orthogonal de X sur Y.

kX −Zk2F =kX−Z0+Z0−Zk2F

Comme Z est proportionnel à Y et queZ0est proportionnel à Y, la différenceZ0−Z est

proportionnelleàY. OrX −Z0est orthogonal à Y, donc X−Z0est orthogonal àZ0−Z qui est proportionnel àY. Il en résulte que l’on a :

kX −Zk2F =kX−Z0+Z0−Zk2F =

kX −Z0k2F +kZ0−Zk2F ≥ kX−Z0k2F.kX−Zk2F atteint son minimum lorsqueZ =Z0.

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 20/32

(33)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Considérons une variable statistique quantitative

bidimensionnelle (X,Y)àvaleurs dansR2, définie dans une populationΩde taille n. Elle est définie par l’ensemble des couples{(X(w),Y(w))}w∈Ω.R2est l’espace des variables.

La variable statistique est représentée par un nuage de points dansR2et chaque point du nuage statistique représente un individu dans la populationΩ.

(34)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Espace des variables

Les n valeurs X(w) de X pour les n individus de la population peuvent être considérées comme les coordonnées d’un vecteur deRn. Ce vecteur est noté

encoreX =

 x1

... xi ... xn

Même chose pour les n valeurs Y(w) de Y pour les n individus de la population.

L’espaceE =Rn apparait alors comme l’espace des variables.

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 22/32

(35)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Produit scalaire

Dans cet espace des variables, la matriceD1

n = 1nIn, o˘In

est la matrice unité à n lignes et n colonnes, définit un produit scalaire:

hX|YiD1

n

=hX|D1 n

|Yi=

i=n

X

i=1

1

nxiyi = 1 n

i=n

X

i=1

xiyi = 1 nhX|Yi

en notanthX|Yile produit scalaire canonique deRn. On

note 1n =

 1

... 1 ... 1

levecteur unitédeRn. Le vecteur unité

est normé.

(36)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Moyenne d’une variable statistique

la moyenneX de la variable statistique X est donné par :

X = 1 n

X

w

X(w) = 1 n

i=n

X

i=1

xi = 1 n

i=n

X

i=1

xi×1=hX|D1 n

|1ni=hX|1niD1 n

La moyenne de X est le produit scalaire de X par le vecteur unité 1n.

NotonsX0la variable centrée correspondant à X : pour chaque individu w de la population, sa valeur est X(w)−X :

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 24/32

(37)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Moyenne d’une variable statistique (suite et fin)

X0=

 x1−X

... xi−X

... xn−X

=

 x1

... xi

... xn

−X

 1

... 1 ... 1

=X −X1n

X =X0+X1n=X0+hX|1niD1 n

1n

(38)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Variance d’une variable statistique

s2(X) =X02= 1n

i=n

X

i=1

(xi−X)2=hX0|D1 n

|X0i=kX0k2

s2(X) =kX0k2

La variance de X est le carré de la norme de la variable centrée.

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 26/32

(39)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Covariance

La covariance de deux variables quantitatives réelles X et Y définies surΩest la moyenne du produit des variables centrées :

Cov(X,Y) = 1n

i=n

X

i=1

(xi−X)(yi−Y) =hX0|D1 n

|Y0i=

hX0|Y0iD1 n

Cov(X,Y) =hX0|D1 n

|Y0ihX0|Y0iD1 n

La covariance est le produit scalare des variables centrées.

(40)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Coefficient de corrélation linéaire

rXY = Cov(X,Y) s(X)s(Y) =

hX0|D1 n

|Y0i

kX0kφkY0kφ =cos(X0,Y0) rXY =cos(X0,Y0)

Le coefficient de corrélation linéaire est le cosinus de l’angle des variables centrées.

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 28/32

(41)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Prédicteur linéaire

Soient Y la variable à expliquer, X la variable explicative, X0 etY0les variables centrées.

Le prédicteur linéaireDY|X esty =a+bx ou y−Y =b(x−X), soity0=bx0.

Il est représenté par ladroite de régressionde Y en X dans l’espace des individus.

Le coefficient b s’obtient par b= Cov(X,Y)

s2(X) = Cov(X,Y) s2(X0) =

hX0|Y0iD1

n

kX0k2D

1n

.

(42)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Prédicteur linéaire (suite)

D’après ce qui précède (I.1.2.3.e),bX0=

hX0|Y0iD1

n

kX0k2D

1n

X0 est le projeté orthogonal deY0surX0,Y0−bX0est orthogonal àX0et b est la valeur qui minimise l’expression

S2= 1n

i=n

X

i=1

(Y0i−bX0i)2=kY0−bX0k2D

1 n

=s2(Y −bX) =

s2(Y −a−bX) =s2(Y −Y) =s2(Y0−Y0)

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 30/32

(43)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Prédicteur linéaire (suite)

Le prédicteur linéaire de la variable centréeY0est le projeté orthogonal deY0surX0dansRn. C’est la variable Y0 qui minimise la variance deY0−Y0.

Nous avons alors : s2(Y) =kY0k2D

1n

=kY0−bX0+bX0k2D

1n

=kY0−bX0k2D

1n

+kbX0k2D

1n

s2(Y) =S2min+b2kX0k2D

1n

=Smin2 + (Cov(X,Y)

s2(X) )s2(X) = Smin2 + (Cov(X,Y)

s(X)s(Y) )s2(Y)

s2(Y) =Smin2 +rXY2 s2(X).

(44)

Notions d’espace vectoriel euclidien Produit scalaire dansRn Propriétés Approche euclidienne de la régression

Régression linéaire dans R

2

Prédicteur linéaire (fin)

Nous retrouvons la variance résiduelleSmin2 et la variance expliquée par la régressionrXY2 s2(X).

De facon symétrique, si X est la variable explicative et Y la variable à expliquer, nous aurons une expression :

s2(X) =Smin2 +rXY2 s2(X).

avec la variance résiduelleSmin02 et la variance expliquée par la régressionrXY2 s2(X).

Pr. Ousmane THIARE Régression linéaire dans 2 16 avril 2020 32/32

Références

Documents relatifs

explicatives xi donne les coefficients de distorsion des corrélations entre les estimateurs des coefficients de régression : un coefficient de corrélation élevé

L'étude des principales propriétés des matrices positives a été entreprise au début du siècle (Frobenius [5], Perron [14]), puis complétée et élargie dans le cadre plus

Cette relation permet de dénir le Pfaen d'un endomorphisme antisymétrique : il s'agit du Pfaen de sa matrice écrite dans n'importe qu'elle base orthonormée directe ; la quantité

Notons, dans un premier temps, que l’inégalité (qui est alors une égalité) est triviale dans le cas r

Les valeurs propres complexes d’une matrice réelle orthogonale ont pour

Le fait que la condition soit suffisante ne pose pas de difficulté particulière mais on notera le rôle déterminant joué par l’inversibilité de

[r]

Calculatrice autorisée (Les 4 exercices sont indépendants. Un soin tout particulier sera apporté à la rédaction des réponses)?. Exercice 1