• Aucun résultat trouvé

Analyse et régression PLS

Dans le document Analyse multidimensionnelle des données (Page 154-159)

3.4.1 Position du problème

On a observé sur un échantillon de n individus statistiques :

- d'une part, p variables indépendantes ou explicatives : X1, X2, ..., Xp - d'autre part, q variables dépendantes, ou "à expliquer" : Y1, Y2, ..., Yq.

On souhaite établir entre les variables indépendantes et les variables explicatives une relation linéaire du type :

Cependant, la régression linéaire classique présente les inconvénients suivants :

- Elle "met en compétition" les différentes variables Xi, et elle est très sensible aux collinéarités entre les Xi, et même inutilisable si l'une des variables Xi est combinaison linéaire des autres variables.

- Elle ne peut pas être utilisée si le nombre d'observations (n) est inférieur au nombre de prédicteurs (p).

Une façon de contourner ces problèmes consiste à faire d'abord une ACP sur les prédicteurs, puis de réaliser la régression des variables dépendantes sur les variables principales ainsi définies. Mais le résultat n'est pas facilement interprétable par l'utilisateur.

L'idée de la régression PLS est de procéder de façon analogue à la régression sur composantes principales, mais en formant des composantes ou variables latentes tenant compte des variables à expliquer.

3.4.2 Le principe de la régression PLS sur un mini-exemple

Considérons les données suivantes (1 variable dépendante Y, 4 variables explicatives Xj, 3 sujets variables Zj, variables centrées réduites associées aux Xj.

Ainsi, les variables Zj sont ici données par :

Y Z1 Z2 Z3 Z4

0,8321 -0,0512 -0,9272 1,1547 0,0000 0,2774 -0,9734 1,0596 -0,5774 1,0000 -1,1094 1,0246 -0,1325 -0,5774 -1,0000

La première composante, ou variable latente P1 est obtenue en pondérant les Zj proportionnellement aux coefficients de corrélation wj=r(Y, Xj).

Sur notre exemple, les coefficients de corrélation valent :

On divise ces coefficients par un même nombre, de manière que la somme des carrés des poids soit égale à 1. On obtient ainsi les poids suivants :

w1=-0,582 ; w2 = -0,133 ; w3 = 0,578 ; w4 = 0,556 La variable latente P1 a donc pour valeur :

P1 = - 0,582 * Z1 - 0,133 * Z2 + 0,578 * Z3+ 0,556 * Z4. Sur les 3 observations, elle prend les valeurs suivantes :

P1

D'où un coefficient de détermination :

R2(Y, Y estimé) = 0,955

Il serait ensuite possible de recommencer la même méthode à partir des résidus de Y, pour produire une deuxième variable latente, et améliorer la qualité de l'estimation.

3.4.3 Un exemple de régression PLS avec Statistica

Dans l'ouvrage : M. Lewis-Beck, A. Bryman, T. Futing (Eds): Encyclopedia for research methods for the social sciences. Thousand Oaks (CA): Sage. pp. 792-795, Hervé Abdi donne l'exemple suivant, que l'on trouve également sur son site, à partir de la page

http://www.utdallas.edu/~herve/#Articles.

On veut prévoir l'évaluation subjective d'un ensemble de 5 vins. Les variables dépendantes que nous voulons prédire sont son appréciation générale et la façon dont il s'accorde avec la viande et les desserts. Les prédicteurs sont le prix, le taux de sucre, le taux d'alcool, et l'acidité.

Les données sont les suivantes :

1

Ouvrez le fichier PLS-Abdi.stw.

La régression PLS est accessible à partir du menu : Statistiques - Modèles linéaires/non-linéaires avancés - Modèles généraux PLS - Modèles linéaires généraux.

Sélectionnez les variables comme suit :

La fenêtre de dialogue "Résultats" permet d'indiquer le nombre de variables latentes souhaité et comporte différents onglets :

L'onglet "Base" est entièrement repris dans l'onglet "Synthèse".

Le bouton "Synthèse" produit le résultat suivant :

Synthèse de la PLS (Données ABDI dans PLS-Abdi.stw) Réponses : Hedonic Goes with meat Goes with dessert Options : NO-INTERCEPT AUTOSCALE

Augmente R² de Y

Moyenne R² de Y

Augmente R² de X

Moyenne R² de X

R² de Hedonic

R² de Goes with

meat

R² de Goes with

dessert Comp 1

Comp 2 Comp 3

0,6333 0,6333 0,7045 0,7045 0,7053 0,9374 0,2572 0,2206 0,8540 0,2790 0,9835 0,7071 0,9851 0,8697 0,1044 0,9583 0,0165 1,0000 1,0000 1,0000 0,8750

Ce tableau nous donne le pourcentage de variance de chacune des variables dépendantes expliqué, pris en compte par le modèle, en séparant l'apport de chacune des composantes (colonnes R2 de Hedonic, R2 de Goes with meat, R2 de Goes with dessert). Il donne également le pourcentage global pour l'ensemble des 3 variables dépendantes (R2 de Y), obtenu simplement comme moyenne des 3 pourcentages précédents. Il indique également le pourcentage de variance des prédicteurs pris en compte par les composantes.

Le bouton "Poids des X" conduit au tableau suivant, qui donne l'expression des composantes en fonction des prédicteurs :

Poids des prédicteurs (Données ABDI dans PLS-Abdi.stw) Réponses : Hedonic Goes with meat Goes with dessert Options : NO-INTERCEPT AUTOSCALE

Price Sugar Alcohol Acidity Compo 1

Compo 2 Compo 3

-0,5137 0,2010 0,5705 0,6085 0,2343 0,9611 0,1267 0,0734 -0,3747 0,1291 -0,8069 0,4380

Ainsi, on a, sur les données centrées réduites :

Compo 1 = -0,51 * Price + 0,20 * Sugar + 0,57 * Alcohol + 0,61 * Acidity Le bouton "Poids Factoriels" donne l'expression des prédicteurs en fonction des composantes :

Pds Fac. X (Données ABDI dans PLS-Abdi.stw) Réponses : Hedonic Goes with meat Goes with dessert Options : NO-INTERCEPT AUTOSCALE

Price Sugar Alcohol Acidity Comp 1

Comp 2 Comp 3

-0,5678 0,0142 0,5933 0,6032 0,3302 0,9638 -0,0136 -0,0268 -0,3496 0,1613 -0,8220 0,4222

Ainsi, en données centrées réduites :

Price = -0,57 * Compo1 + 0,33 * Compo2 - 0,350 * Compo3

Les boutons Coefficients de régression et Coefficients de régression centrés donnent les résultats de la régression (utilisant le modèle PLS). Les variables dépendantes estimées y sont exprimées en fonction des variables de départ.

Coefficient de régression PLS (Données ABDI dans PLS-Abdi.stw) Réponses : Hedonic Goes with meat Goes with dessert

Options : NO-INTERCEPT AUTOSCALE

Ord.Ori Price Sugar Alcohol Acidity Hedonic

Goes with meat Goes with dessert

48,5000 -1,0000 0,7500 -4,0000 2,7500 -8,9167 -0,0333 0,2750 1,0000 0,1750 -3,8542 0,0417 0,5937 0,5000 0,0937

PLS coefficients de régression centrés (Données ABDI dans PLS-Abdi.stw) Réponses : Hedonic Goes with meat Goes with dessert

Options : NO-INTERCEPT AUTOSCALE Price Sugar Alcohol Acidity Hedonic

Goes with meat Goes with dessert

-1,0607 0,3354 -1,4142 1,2298 -0,0745 0,2593 0,7454 0,1650 0,1250 0,7510 0,5000 0,1186

Ainsi, par exemple, en données non centrées réduites, on a :

Hedonic estimé = 48,5 - Price + 0,75 * Sugar - 4 * Alcohol + 2,75 * Acidity (et il s'agit d'une valeur exacte, puisque R2=1 pour cette variable).

Le bouton "Poids des Y" donne l'expression des variables dépendantes (centrées réduites) en fonction des composantes :

Poids des réponses (Données ABDI dans PLS-Abdi.stw) Réponses : Hedonic Goes with meat Goes with dessert Options : NO-INTERCEPT AUTOSCALE

L'onglet "Observ." donne quant à lui des tableaux des valeurs observées, valeurs prévues et résidus des variables dépendantes sur les différents individus statistiques observés :

Valeurs prévues (Données ABDI dans PLS-Abdi.stw) Réponses : Hedonic Goes with meat Goes with dessert Options : NO-INTERCEPT AUTOSCALE

Il donne également les scores des individus sur les composantes, calculés soit à partir des variables prédictives, soit à partir des variables dépendantes :

Valeurs des prédicteurs et réponses (Données ABDI dans PLS-Abdi.stw) Réponses : Hedonic Goes with meat Goes with dessert

Options : NO-INTERCEPT AUTOSCALE

1,4952 0,9663 0,2937 1,9451 0,7611 0,6191 1,7789 -1,0239 -0,2380 0,9347 -0,5305 -0,5388 0,0000 0,0000 0,0000 -0,2327 -0,6084 0,0823 -1,4181 1,1040 -0,2724 -0,9158 1,1575 -0,6139 -1,8560 -1,0464 0,2167 -1,7313 -0,7797 0,4513

Dans le document Analyse multidimensionnelle des données (Page 154-159)