• Aucun résultat trouvé

5.3 Prédiction de Y par X

6.1.2 Méthodes s’apparentant à l’analyse canonique

L’analyse canonique (paragraphe 3.1.3 page 52) est généralisée pour le cas deK

tableaux (X1,...,XK) par Horst [1961]. Carroll [1968] modifie le critère en introduisant une composante globale (appelée variable auxiliaire), résumé du tableau concaténé

X=[X1|...|XK], ce qui aboutit à une solution non itérative de la maximisation du critère. Des variantes de cette solution sont proposées par d’autres auteurs [Ket-tenring, 1971; Saporta, 1975; Meyer, 1989; Pontier et Normand, 1992; Casin, 1995].

6.1 Méthodes liantKtableauxXkà un tableauY 93

F. 6.2 – Illustration des liens entre K tableaux Xk (k=1,...,K) et un tableau Y, résumés chacun par une composante, pour une dimension donnée.

Une synthèse est proposée par Hanafi [1997] et Hanafi et Kiers [2006]. Cette géné-ralisation, appelée analyse canonique généralisée ouACG[Carroll, 1968], recherche les composantes partielles tk, résumés de chaque tableau Xk, les plus liées à une composante globalet, au sens de la corrélation. Elle est basée sur la maximisation du critère (6.1).

K

X

k=1

cov2(t(1)k ,t(1)) avec t(1)k =Xkw(1)k , t(1)=Xw(1), ||t(1)k ||=||t(1)||=1 (6.1) Kissita [2003, Chap. 3] propose une extension de l’analyse canonique généralisée dont l’objectif est de lierKtableaux (X1,...,XK) à un tableauY. Cette méthode est ap-pelée analyse canonique généralisée avec tableau de référence (ACGTR). L’ACGTR

recherche, dimension par dimension, les composantes tk, résumés de chaque ta-bleauXk, etu, résumé du tableauY, dont la somme des carrés des corrélations est maximum. Cette méthode permet d’étudier les dépendances simultanées entre les

K tableauxXk et le tableau de référence Y. Elle est basée sur la maximisation du critère (6.2). Ce critère s’apparente à une analyse canonique des tableauxXk, où la variable auxiliaire est contrainte d’être dans l’espace des variables deY.

K

X

k=1

cov2(t(1)k ,u(1)) avec t(1)k =Xkw(1)k , u(1)=Yv(1), ||t(1)k ||=||u(1)||=1 (6.2) En s’inspirant du problème de la double optimisation de Lafosse et Hanafi [1997, Prop. 3.1] développé dans le cadre de la généralisation de l’analyse factorielle inter-batterie, Kissita [2003] démontre que la maximisation du critère (6.2) est équivalente à celle du critère (6.3) qui fait apparaître une composante globaletliée au tableau concaténéX=[X1|...|XK] : cov2(t(1),u(1)) avec u(1)=Yv(1), t(1)=X k a(1)k t(1)k , t(1)k =Xkw(1)k (6.3) P ka(1)2k =1, t(1)=Xw(1), ||t(1)k ||=||u(1)||=1

La solution de ce problème de maximisation est donnée par w(1) vecteur propre de la matrice (1/N2)(X0X)1X0Y(Y0Y)1Y0Xassocié à la plus grande valeur propre

λ(1) [Kissita, 2003, p. 50]. Par la suite, w(1) est partitionné en blocs conformément à la partition de X en K tableaux : w(1)=[w(1)

0

1 |...|w(1)

0

K ]0. A partir de là, les com-posantes t(1)k normées sont données à partir de tk(1)=Xkw(1)k /||Xkw(1)k ||. La compo-santeu(1)est calculée à partir deu(1)=Yv(1), avecv(1) vecteur propre de la matrice (1/N2)(Y0Y)1Y0X(X0X)1X0Yassocié à la plus grande valeur propreλ(1). Les solu-tions d’ordre suivant sont obtenues par déflation des tableaux Xk sur leurs com-posantestkrespectives. Les composantes partielles (t(1)k ,...,t(kh)), pour chaque valeur dek, sont donc mutuellement orthogonales par construction. Kissita [2003, p. 129] précise que les composantes (u(1),...,u(h)) sont aussi mutuellement orthogonales, mais que les composantes globales (t(1),...,t(h)) ne le sont pas.

Il ressort des solutions de l’ACGTR que les composantes globales t(1) et u(1), associées respectivement au tableau concaténéXet au tableauY, ne dépendent pas de la partition deXenKblocs. L’ACGTRapporte une solution théorique intéressante au lien entre (K+1) tableaux, mais présente les mêmes limites pratiques que l’analyse canonique en cas de multicolinéarité au sein du tableau concaténéXou au sein du tableauY(paragraphe 3.1.3 page 52 ou Lebartet al.[2000, p. 352]).

Analyse canonique généralisée sous contrainte

Comme nous l’avons indiqué dans le paragraphe précédent, l’analyse canonique généralisée est basée sur la maximisation du critère (6.1). Nous proposons une modification de ce critère qui consiste à maximiser le même critère en modifiant les contraintes qui lui sont associées, selon le problème de maximisation (6.4).

K

X

k=1

cov2(t(1)k ,t(1)) avec t(1)k =Xkw(1)k , t(1)=Xw(1), ||t(1)k ||=||w(1)||=1 (6.4) Pour une composante t(1) fixée, la valeur optimale de la composante partielle

t(1)k est donnée par t(1)k =Pkt(1)/||Pkt(1)||, avec Pk =Xk(Xk0Xk)1X0k. Les composantes partielles t(1)k sont les composantes normées issues de la projection de la com-posante t(1) sur les espaces associés aux tableaux Xk pour k=(1,...,K). En re-portant cette valeur dans l’expression (6.4), le critère devient P

kcov2(t(1)k ,t(1)) = t(1)0Pkt(1)=P

kw(1)0X0

PkXw(1). Ainsi, w(1) est le premier vecteur propre de la ma-triceH=(1/N2)X0[P

kXk(X0kXk)1X0k]Xassocié à la plus grande valeur propre. Les composantes d’ordre suivant s’obtiennent après déflation sur les composantest ob-tenues aux étapes précédentes. Etant donné que les projecteursPksont symétriques et idempotents, il s’ensuit queH=(1/N2)P

k(PkX)0(PkX). Cette version modifiée de l’ACGconsiste donc à réaliser uneACPdu tableau obtenu par concaténation verti-cale des projections deXsur les espaces engendrés par les blocsXk. Nous pouvons remarquer que cette version de l’analyse canonique généralisée permet de limiter les problèmes de sensibilité à la multicolinéarité des variables du tableau concaténé

Xcar la matrice (X0

6.1 Méthodes liantKtableauxXkà un tableauY 95 A partir de cette version modifiée (6.4) du critère de l’ACG, nous définissons une analyse canonique généralisée sous contrainte. Cette méthode a les mêmes objectifs que l’ACGTR, c’est à dire, déterminer simultanément des composantes globales

t résumant le tableau concaténé X=[X1|...|XK] et orientées vers l’explication du tableauY, ainsi que des composantes partiellestkrésumant respectivement chaque tableauXk et liées au tableau concaténé X. La méthode proposée est une solution intermédiaire entre celle de l’ACGadaptée à la description deKtableauxXk, et celle de l’ACGTRqui permet la description de KtableauxXk orientée vers l’explication d’un tableauY, en appliquant la contrainte de norme sur l’axe wet non plus sur la composantet. La solution de cette méthode est donnée par la maximisation du critère (6.5), où le tableauYest résumé par une composanteu(1).

cov2(u(1),t(1))+X

k

cov2(t(1)k ,t(1)) avec t(1)k =Xkw(1)k (6.5)

t(1)=Xw(1), u(1)=Yv(1), ||t(1)k ||=||w(1)||=||u(1)||=1 Pour t(1) fixée, la valeur optimale deu(1) est u(1)=Y(Y0

Y)1Y0

t(1)/||Y(Y0

Y)1Y0

t(1)||, composante normée issue de la projection de la composantet(1)sur l’espace associé au tableauY. Les composantes norméest(1)k sont obtenues par projection de la

com-posantet(1)sur les espaces associés aux tableauxXk:t(1)k =Xk(Xk0Xk)1Xk0t(1)/||Xk(Xk0Xk)1Xk0t(1)||

pourk=(1,...,K). En reportant ces valeurs dans l’expression (6.5), il s’ensuit que : (6.5) = (1/N2)        t(1)0u(1)u(1)0t(1)+X k t(1)0t(1)k t(1) 0 k t(1)        = (1/N2)        w(1)0X0Y(Y0Y)1Y0Xw(1)+w(1)X0(X k Xk(X0kXk)1X0k)Xw(1)        = (1/N2)w(1)0        X0Y(Y0Y)1Y0X+X0[X k Xk(X0kXk)1X0k]X        w(1)

La solution de cette maximisation est donnée parw(1), premier vecteur propre de la matrice (1/N2)hX0Y(Y0Y)1Y0+P

kXk(X0kXk)1X0kXiassocié à la plus grande valeur propreλ(1). Les axes et composantes d’ordre suivant sont issus de la maximisation du critère (6.5) en considérant les résidus successifs de la régression des tableaux

Xk et Y sur les composantes globales t obtenues aux étapes précédentes. Le mo-dèle expliquant le tableau Y par l’ensemble des variables du tableau concaténé

X=[X1|...|XK] s’appuie sur les composantes (t(1),...,t(h)), qui sont mutuellement orthogonales par construction.