• Aucun résultat trouvé

4.2 Continuums explorés dans le cadre de deux tableaux

4.2.2 Continuum ACPVI − PLS regression

αY|p(1−α)X] surX.

4.2.2 ContinuumACPVI−PLSregression

Dans le cas d’un tableau X orienté vers l’explication d’un tableau Y, le choix de la méthode diffère selon le degré de multicolinéarité des variablesX. Si celles-ci sont peu corrélées entre elles, le choix d’une méthode orientée vers la prédiction des variablesY, telle que l’ACPVI, est recommandé. Si les variables, comme c’est souvent le cas, comportent des quasi-colinéarités, le choix se porte sur une méthode plus stable comme la régressionPLS. Ces deux méthodes sont respectivement basées sur la décomposition spectrale des matrices [(1/N2)(X0

X)−1X0

YY0

X] et [(1/N2)X0

YY0

X]. Il apparaît donc que la régressionPLSest basée sur une contraction de la matrice (X0X)1 vers la matrice identitéIP. Le continuum détaillé ici établit un lien entre

4.2 Continuums explorés dans le cadre de deux tableaux 69

ACPVI−PLS. Il est basé sur la variation du paramètreγ1. Comme nous l’avons déjà

souligné, cette stratégie est basée sur la maximisation du critère (4.12).

X

q

cov2(yq,t(1)γ1) avec t(1)γ1 =Xw(1)γ1 (4.12) (1−γ1)||t(1)γ1||21||w(1)γ1||2=1 et 0≤γ11

La solution de ce problème de maximisation est donnée parw(1)γ1, vecteur propre de la matrice (1/N2)[(1−γ1)(X0X)+γ1I]1X0YY0Xassocié à la plus grande valeur propre

λ(1)

γ1. Les composantes d’ordre suivant (t(1)γ1,...,t(γh1)) sont obtenues en remplaçant dans le critère (4.12),Xpar son résidu de la régression sur les composantes précédemment obtenues. La figure 4.6 illustre la famille de méthodes explorée par le continuum

ACPVI−PLS. En faisant varier le paramètreγ1, le continuum explore les solutions

comprises entre celle de l’ACPVI(γ1=0) et de la régressionPLS(γ1=1). Les résultats de l’ACPVIsont orientés vers l’explication des variablesYdu fait de la contrainte

||t||=1. Par contre ils présentent plus de sensibilité à la quasi-colinéarité des variables

X, car ils nécessitent l’inversion de la matrice (X0

X). Le risque est de trouver des variables latentestde faible variance (liées au bruit) ayant un bon pouvoir explicatif des variablesY. A l’inverse, les résultats de la régressionPLSsont moins orientés vers l’explication des variablesYcar les composantestsont construites de façon à expliquer correctement les variables X(||w||=1 et non pas ||t||=1). Ils présentent peu de sensibilité à la multicolinéarité des variablesXcar la matrice (X0X) n’a pas besoin d’être inversée. Cependant, cette solution plus stable risque de déterminer des composantestde forte variance expliquant peuY.

F. 4.6 – Illustration du domaine exploré par le continuumACPVI−PLS. L’approche continuum proposée peut être introduite à partir de la maximisation

du citèreQγ1 : Qγ1 = w 0 γ1X0YY0Xwγ1 w0 γ1[(1−γ1)X0X+γ1I]wγ1 Qγ1 = t 0 γ1YY0tγ1 (1−γ1)t0 γ1tγ11.w0 γ1wγ1

Cette expression étant invariante par multiplication par un facteur d’échelle, nous imposons arbitrairement||wγ1||=1, ce qui permet d’écrire le critèreQγ1sous la forme (4.13).

P

qcov2(yq,tγ1) (1−γ1)var(tγ1)+γ1

(4.13) Cette nouvelle expression du critère va nous permettre de démontrer des propriétés intéressantes liées à ce continuum et d’établir un lien entre ce continuum et d’autres stratégies d’analyse.

Propriétés du continuumACPVI−PLS

Sensibilité à la multicolinéarité La sensibilité du modèle à la multicolinéarité des variablesXpeut être reflétée par l’indice de conditionnementη[Belsleyet al., 1980]. L’indice de conditionnement maximal est le rapport de la plus grande valeur propre de la matrice (X0

X), λ(1) sur la plus petite, λ(P) [Erkel-Rousse, 1995]. Une grande valeur de η alerte sur la présence de quasi-colinéarité au sein des variablesX et donc sur le risque d’instabilité du modèle. D’après Erkel-Rousse [1995], les liaisons fortes entre les variablesXsont associées à des valeurs du paramètreηde l’ordre de 30 (situation de risque entre 20 et 30). L’indice de conditionnement maximal de la matrice [(1−γ1)X0X+γ1I] est donné par :

ηγ1 = (1γ1(1)1

(1−γ1(P)1

Il est aisé de montrer, en étudiant la dérivée de cette fonction par rapport àγ1, que l’indiceηγ1 est une fonction décroissante du paramètreγ1. Au sein du continuum

ACPVI−PLS, la régression PLS correspond donc à la plus petite valeur de ηγ1,

l’ACPVIà la plus grande.

Stabilité du modèle Comme nous l’avons déjà souligné, la stabilité du modèle obtenu par la régression des variablesYsur la première composantet(1)γ1 peut être évaluée par la variance det(1)γ1. Nous allons montrer quevar(t(1)γ1) est une fonction croissante deγ1, ce qui signifie que lorsque le paramètreγ1augmente, le continuum s’éloigne des composantes de faible variance reflétant le bruit pour investir des directions plus stables. La solution d’ordre un de l’ACPVIcorrespond à la solution de plus faible variance de la composantet(1)γ1 et la régressionPLSà la solution de plus grande variance. Afin de démontrer cette propriété, considérons deux valeurs du paramètreγ11(1)etγ1(2), telles que 0≤γ1(1)γ1(2)1. Soit les vecteurswγ1(1)et

4.2 Continuums explorés dans le cadre de deux tableaux 71

wγ1(2), solutions du problème d’optimisation (4.13), en remplaçantγ1respectivement parγ1(1)etγ1(2): P qcov2(yq,t(1)γ1(2)) (1−γ1(1))var(t(1)γ1(2))+γ1(1) ≤ P qcov2(yq,t(1)γ1(1)) (1−γ1(1))var(t(1)γ1(1))+γ1(1) (4.14) P qcov2(yq,t(1)γ1(1)) (1−γ1(2))var(t(1)γ1(1))+γ1(2) ≤ P qcov2(yq,t(1)γ1(2)) (1−γ1(2))var(t(1)γ1(2))+γ1(2) (4.15) La multiplication terme à terme des inégalités (4.14) et (4.15) donne après simplifi-cation : (1−γ1(2))var(t(1)γ1(2))+γ1(2) (1−γ1(2))var(t(1)γ1(1))+γ1(2) ≤(1−γ1(1))var(t(1)γ1(2))+γ1(1) (1−γ1(1))var(t(1)γ1(1))+γ1(1) (4.16)

Après simplification de l’inégalité (4.16), il ressort quevar(t(1)γ1(1))≤var(t(1)γ1(2)), ce qui permet de conclure quevar(t(1)γ1) est une fonction croissante deγ1.

Qualité d’ajustement du modèle La qualité d’ajustement du modèle obtenu en régressant les variablesYsur la première composantet(1)γ1 est donnée par l’inertie de

Yexpliquée par cette composante,Iner_Expl(Y,t(1)γ1)=P

qcov2(yq,t(1)γ1)/var(t(1)γ1). Nous allons montrer que cette inertie expliquée est une fonction décroissante du paramètre

γ1. Il s’ensuit qu’au sein du continuum ACPVI−PLS, l’ACPVI correspond à la solution de plus grande capacité d’ajustement du modèle et la régressionPLSà la plus faible. Comme précédemment, nous considérons deux valeurs du paramètre

γ11(1) etγ1(2), telles que 0≤γ1(1)γ1(2)1.var(t(1)γ1) étant une fonction croissante deγ1,var(t(1)γ1(1))≤var(t(1)γ1(2)), il s’ensuit :

(1−γ1(1))var(t(1)γ1(1))var(t(1)γ1(2))+γ1(1)var(t(1)γ1(1))≤(1−γ1(1))var(t(1)γ1(1))var(t(1)γ1(2))+γ1(1)var(t(1)γ1(2)) Ce qui est équivalent à :

var(t(1)γ1(1))

var(t(1)γ1(2))

≤(1−γ1(1))var(t(1)γ1(1))+γ1(1)

(1−γ1(1))var(t(1)γ1(2))+γ1(1)

De l’inégalité (4.14) précédente, nous déduisons que :

var(t(1)γ1(1)) var(t(1)γ1(2)) ≤(1−γ1(1))var(t(1)γ1(1))+γ1(1) (1−γ1(1))var(t(1)γ1(2))+γ1(1) ≤ P qcov2(yq,t(1)γ1(1)) P qcov2(yq,t(1)γ1(2)) Soit P qcov2(yq,t(1)γ1(2)) var(t(1)γ1(2)) ≤ P qcov2(yq,t(1)γ1(1)) var(t(1)γ1(1))

Ce qui montre que l’inertie deYexpliquée par la première composantet(1)γ1,Iner_Expl(Y,t(1)γ1)=

P

Norme du vecteur des coefficients de régression Dans le cas où la régression

OLS (=Ordinary Least Square) classique est appliquée sur des variables X

quasi-colinéaires, la norme des coefficients de la régression peut être artificiellement élevée. Les méthodes de régression telles que la régression PLS permettent de réduire la norme des coefficients de régression et par conséquent de régulariser les coefficients de régression. Pour le cas univarié,Y=[y], De Jong [1995] démontre que la norme des coefficients de la régressionPLS1 est réduite, en comparaison à celle des coefficients de la régressionOLS. Il est connu que lareduced rank regression, réalisée en régressant les variablesYsur les composantes de l’ACPVI, est une extension de la régression

OLSpour le cas multivariéY=[y1,...,yQ]. Nous démontrons que dans le cas d’un modèle avec une seule composante issue du continuumACPVI−PLS, la norme du vecteur de coefficients||β(1)

γ1||est une fonction décroissante du paramètre γ1. Dans le cas d’un modèle à une seule dimension, le modèle de prédiction est obtenu en régressant chaque variableYsurt(1)γ1, ce qui mène au modèle ˆYγ(1)1 =Xβ(1)

γ1. Le carré de la norme du vecteurβ(1)

γ1 est donné par :

||β(1)

γ1||2=

P

qcov2(yq,t(1)γ1)

var2(t(1)γ1) =Iner_Expl(Y,t (1)

γ1)

var(t(1)γ1)

Cette fonction étant le rapport d’une fonction qui décroît et d’une fonction qui croît avec le paramètreγ1, nous en déduisons que ||β(1)

γ1||2 est une fonction décroissante deγ1. En particulier, nous en déduisons que la norme du vecteur des coefficients d’ordre un de la régressionPLS(γ1=1) est plus petite que celle de l’ACPVI(γ1=0).

Comparaison à d’autres continuums

En appliquant le continuumACPVI−PLSau cas univariéY=[y], nous recher-chons le premier vecteur propre de la matrice (1−γ1)X0

X+γ1I−1X0

yy0

X, ou de manière équivalentehX0X+kγ1Ii1X0yy0Xaveckγ11/(1−γ1). Cette dernière ma-trice est de rang un, et le premier vecteur propre associé à cette mama-trice est donné parw(1)γ1 =h

X0

X+kγ1Ii1X0

y. Le modèle obtenu en régressant la variable à expliquer

ysur la première composantet(1)γ1 =Xw(1)γ1 est donné par ˆy(1)γ1 =aXhX0X+kγ1Ii1X0y,

aétant un scalaire. Ceci montre que dans le cas univarié, le continuumACPVI−PLS

est directement lié à la régression ridge [Hoerl et Kennard, 1970]. Cette stratégie d’analyse est discutée plus en détail par Qannari et Hanafi [2005]. Ces auteurs se réfèrent à cette méthode, sous le nom desimple continuum regression. Ils montrent sur un exemple et sur la base d’une validation croisée, qu’en plus de sa simplicité, cette méthode donne de meilleurs résultats que d’autres méthodes plus complexes comme le continuum de Stone et Brooks [1990]. Les autres avantages du continuum

ACPVI−PLSsont tout d’abord d’apporter des composantes supplémentaires

per-mettant d’améliorer la qualité de prédiction de la variabley, mais aussi de pouvoir être étendue directement au cas de plusieurs variablesYà expliquer comme nous l’avons fait ci-dessus.

4.2 Continuums explorés dans le cadre de deux tableaux 73