Régression PLS2 (multivariée) - Les régressions Gini-PLS : Une application aux inégalités des r

La régression PLS2 est une généralisation de la régression PLS1. Elle per-met de retrouver le lien de causalité entre deux matrices. Il existe différentes versions de la régression PLS2. Nous présentons dans ce qui suit la version

“classique qui tient compte des observations manquantes”. [Voir aussi Tenen-haus, (2009)].

La régression PLS2 est un algorithme qui permet de régresser les variables dépendantes Yl (∀l = 1, . . . , q) sur des composantes orthogonales t1, . . . , th. Les variables Yl sont mises en colonne dans la matrice des variables

dépen-dantes Y ≡ Y(1), de taille (n, q). De la même manière que la méthode PLS1, l’algorithme PLS2 purge le modèle de la multi-colinéarité. La contribution de chaque variable Xk (∀k = 1, . . . , K) à la variance de chaque Yl est ainsi cap-tée à travers les composantesth. Nous noterons yli la variable Yl observée sur l’individu i = 1, . . . , n. Les variables Yl et Xk sont centrées afin de faciliter l’analyse.

1.3.1 Étapes de la régression PLS2

Les étapes de la régression PLS2 sont similaires à celles que nous avions précédemment pour l’algorithme PLS1. Il s’agit ici de tenir compte du rôle tenu par plusieurs variables dépendantesyl, l’algorithme PLS devenant un cas particulier de PLS2.

•Étape h0 :La régression PLS2 consiste à modéliser le lien entre une ma-trice de variables dépendantes et une autre mama-trice de variables explicatives. L’objet de l’étape d’initialisation (étape h0) est de trouver les composantes qui maximisent le lien entre les variables dépendantes d’une part et les va-riables explicatives d’autre part. L’étape h0 que nous décrivons est nouvelle par rapport à l’algorithme PLS1. Il s’agit de trouver les pondérationsWh per-mettant de déterminer les composantes orthogonalesth. L’étapeh0 se répètera à l’intérieur de chaque étape h.

֒→ Initialisation d’une boucle :

֒→ [R]épéter jusqu’à convergence de Wh.10

֒→ Définir le vecteur uh comme la première colonne de Y₍h−1), avec pour tout h>1,Y(h)=Y(h−1)−thc^⊺_h.

֒→Régresser chaque colonne de la matriceU^ˆ(h)sur le vecteuruh, on obtient le vecteur de tailleK,Wh = ˆU₍^⊺_h₋₁₎uh/u^⊺_huh, avec pourh = 1,W₁ =X⊺u₁/u^⊺₁u₁.

֒→ Le vecteur Wh est normé : kWhk= 1.

֒→ Régresser chaque ligne de la matrice U^ˆ(h) sur le vecteur Wh, on ob-tient le vecteur de taille n, th = ˆU(h−1)Wh/W_h^⊺Wh, avec pour h = 1, t1 =

XW1/W₁^⊺W1 =XW1.

֒→Régresser chaque colonne de la matriceY^ˆ(h) sur le vecteurth, on obtient le vecteur de tailleq,ch =Y₍^⊺_h₋₁₎th/t^⊺_hth, avec pourh= 1,c₁ =Y⊺t₁/t^⊺₁t₁. Pour

h>2,ˆε₍h−1) ≡Y₍h), avec ˆε₍h) la matrice contenant en colonnes les résidus des régressions ci-dessus.

֒→ Régresser chaque ligne de la matrice _Yˆ₍_h₎ sur le vecteur ch, on obtient le nouveau vecteur de taille n, uh = Y₍h−1)ch/c^⊺_hch, avec pour h = 1, u₁ =

Y c1/c^⊺₁c1.

֒→ Revenir à [R].

• Étape 1 :

La première composante t1 se détermine par :

t1 =W(1)1X1+· · ·+W(1)kXk+· · ·+W(1)KXK .

On effectue la régression par MCO de chaque Yl sur t1, on obtient en notant

ε(1) ≡ Y(2) la matrice n × q contenant en colonnes les vecteurs des termes d’erreur observésε(1)l :

Yl=c1lt1+ε(1)l, ∀l = 1, . . . , q.

Le vecteur des coefficients estimés c1 = (c11, . . . , c1l, . . . , c1q)⊺ permet de re-trouver le modèle complet avec tous les régresseurs Xk :

Yl =c1l W(1)1X1+W(1)2X2+· · ·+W(1)KXK

+ε(1)l, ∀l= 1, . . . , q.

Dans le cas où il y a de valeurs manquantes11 :

t1i = P k:∃XikW′′ (1)kXik P k:∃Xik(W′′ (1)k)2 où W₍₁₎^′′ _k= ^W ′ (1)k qPK k=1(W′ (1)k)2 .

11. Lorsqu’il manque des observationsyi ouxik, les calculs matriciels se font à l’aide des valeurs existantes.

et W₍₁₎^′ _k = P i:∃Xki,yiXkiyi P i:∃Xki,yi(yi)2 .

• Etape 2 : La deuxième composante t2 doit être construite de sorte que

t1 ⊥ t2. L’orthogonalité permet de respecter l’hypothèse de plein rang des MCO et d’extraire la multi-colinéarité du modèle. On effectue K régressions partielles des K régresseurs sur t1 afin d’isoler tout ce que t1 ne peut pas expliquer, autrement dit, les résidusU^ˆ(1)k pour toutk = 1, . . . , K :

       on régresse X1 sur t1 : X1 =β₍₁₎₁t1 +U(1)1 ... on régresse XK sur t1 : X1 =β₍₁₎_pt1+U(1)K .

Le vecteur poids W₂ associé à la seconde composante t₂ est déterminé confor-mément à la procédure expliquée à l’étape h0. La seconde composante t2 se détermine alors de la manière suivante :

t2 = K X k=1 W(2)k_Uˆ₍₁₎_k ₌_W₍₂₎₁₍_X₁−X^ˆ1) +· · ·+W(2)K(XK−X^ˆK) =W(2)1(X1−β^ˆ₍₁₎₁t1) +· · ·+W(2)K(XK−β^ˆ₍₁₎_Kt1) .

Les MCO sont appliqués en considérant les vecteurst1 ett2 comme régresseurs. Pour chaque Yl, le modèle s’écrit :

Yl =c1lt1+c2lt2+ε(2)l, ∀l = 1, . . . , q.

On trouve donc cˆ2l (le paramètre ˆc1l reste constant du fait de l’orthogonalité des régresseurs th). L’hypothèse de plein rang est respectée si n >2.

• Etape h : La matrice ˆε(h−1) de taille n ×q contenant en colonnes les vecteurs des résidusˆε(2)kde l’étapeh−1est liée à la matrice des résidus partiels

U(h−1) afin d’obtenir les nouveaux poids Wh (voir étape h0). La régression de chaqueYl sur t₁, t₂, . . . , th s’écrit :

Le nombre de composantes du modèle est ainsi élevé jusqu’à th lorsque la différence de qualité d’ajustement avec le modèle à h+ 1 composantes n’est pas significative.

1.3.2 Validation croisée

Comme pour l’algorithme PLS1, la validation croisée permet de trouver le nombre optimal de composantes à retenir. Pour tester une composante th, on calcule la prédiction du modèle avechcomposantes comprenant l’observationi,

Y_lh_i, puis sans l’observationi,_Yˆ_lh

(−i), pour chaque colonneYldeY,l = 1, . . . , q. L’opération est répétée pour tout i variant de 1 à n : on enlève à chaque fois l’observation i et on ré-estime les modèles pour chaque l = 1, . . . , q. Pour mesurer la qualité prédictive du modèle l, on mesure l’écart entre la variable prédite et la variable observée :

P RESSh,l =X i Yil−Y^ˆlh₍₋_i) 2 , ∀l = 1, . . . , q.

La somme des carrés résiduels obtenue avec le modèle à (h−1) composantes est :

RSSh−1,l =X

Yil−Y^ˆl(h−1)i

, ∀l = 1, . . . , q.

Le critère somme des carrés des résidus RSSh,l (Residual Sum of Squares) du modèle àh composante et P RESSh,l (PRedicted Error Sum of Squares) sont comparés. Si le modèle avec la composante th améliore la prédictabilité du modèle, leur rapport augmente. La statistique suivante est alors calculée :

Q²_h = 1− Pq l=1P RESSh,l Pq l=1RSSh−1,l .

On retrouve alors la même règle de décision de l’algorithme PLS1. La com-posante th est retenue si : Q2

h > 0,0975. Elle améliore dans ce cas prévision de chaque variableYl. Pour la significativité de la première composantet1, on utilise : RSS0,l = n X i=1 Yi,l−Y^¯l 2 .

Cette procédure est un test de significativité globale des q modèles Y^ˆl. Un test moins restrictif consiste à valider une composante th lorsqu’au moins un

hl >0,0975, où :

Q²_hl = 1−^{P RESS}^h,l

RSSh−1,l

Les deux règles sont :

[R1] : th est significative lorsque Q2

h >0,0975¹²; [R2] : th est significative si : ∃l∈ {1, . . . , q}: Q2

hl >0,0975.

Les régressions PLS (univarié et multivarié) fondées sur des composantes orthogonales servent à trouver des liens de causalités entre deux groupes de variables. Les coefficients obtenus sont robustes en absence d’observations, en présence de fortes corrélations entre les variables explicatives et lorsque le nombre de variables explicatives dépasse la taille de l’échantillon.

La régression PLS2 comme la régression PLS1 ne peuvent pas résoudre les difficultés liées à l’endogénéité comme les valeurs aberrantes et les erreurs de mesure. Une régression par moindres déviations pourrait résoudre le problème. Le lien avec la régression sur indice de Gini peut maintenant être introduit.

Dans le document Les régressions Gini-PLS : Une application aux inégalités des revenus agricoles européens. (Page 31-36)