• Aucun résultat trouvé

Choix du nombre de composantes

Tout d’abord, on connaˆıt une borne sup´erieure de k, k ≤r =rang(X).

Lorsque l’on choisit k=rang(X), le mod`ele de r´egression PLS est identique `a celui de la r´egression aux moindres carr´es usuelle lorsque cette derni`ere est applicable.

Trois types de crit`eres permettent de d´eterminer le nombre k de composantes, aussi appel´e la dimension du mod`ele. Le premier type est bas´e sur le “fit” c’est `a dire, l’ajus-tement de l’´echantillon d’apprentissage (X, Y) par (X(k),b Yb(k)) contruit par PLS `a k composantes. Les deux autres sont bas´es sur la pr´ediction. L’un, bas´e sur la pr´ediction in-terne aux donn´ees d’apprentissage, est appel´e crit`ere de “validation crois´ee”. L’autre, bas´e sur la pr´ediction externe, n´ecessite un jeu de donn´ees suppl´ementaire, appel´e ´echantillon test ou ´echantillon de validation et not´e (Xt, Yt).

Finalement, la d´etermination dekest une d´ecision qui fait la synth`ese des informations recueillies par l’examen des crit`eres disponibles.

9.13.1 Crit` eres bas´ es sur l’ajustement

Trois crit`eres permettent de mesurer l’apport des composantes dans l’ajustement aux donn´ees. Les deux premiers concernent la reconstruction de X et un troisi`eme est associ´e

`a l’ajustement de Y. Crit`eres sur X

– V-inertie des individus reconstruite park composantes Iind(k) =

Xk i=1

var(t∗i) et Iind(r) =kVk2F =kXk2V⊗D =X

h , l

cov2(Xl, Xh).

Le pourcentage d’inertie totale reconstruite par k axes

donne le crit`ere mesurant l’apport des k composantes dans la repr´esentation des individus.

– D-variance reconstruite park composantes

Ix(k) = Le pourcentage de variance totale reconstruite par k axes est donn´e par

%Ix(k) = 100 Pk

j=1Ijx

Ix . (9.62)

Ainsi PLS poss`ede comme propri´et´e secondaire, mais pr´ecieuse, le fait de calculer le rang deX comme ´etant le nombre de composantes reconstruisant 100% des deux crit`eres bas´es sur l’ajustement deX.

Crit`ere sur Y

– D-variance reconstruite park composantes

Iy(k) = Le pourcentage de variance totale reconstruite par k axes est donn´e par

%Iy(k) = 100 Pk

j=1Ijy

Iy . (9.63)

Grˆace `a (9.61), (9.62) et (9.63), un premier crit`ere du choix du nombre de composantes peut ˆetre ´enonc´e comme suit :

“on choisira k de telle fa¸con que l’inertie des individus et la variance de X soient suffisamment reconstruites pour un gain faible dans l’approximation de la variance de Y”.

La Figure 24 pr´esente le diagramme de l’´evolution de ces crit`eres en fonction du nombre de composantes. Bas´e sur un exemple r´eel, il donne une premi`ere indication pour le choix dek.

Calcul Matriciel et Analyse Factorielle des Donn´ees

1 2 3 4 5 6 7 8 9 10 11 12 13

406080100

1 1

1 1

1 1

1 1 1 1 1 1 1

2 2

2 2

2 2

2 2

2 2 2 2 2

3 3

3 3

3 3

3 3 3 3 3 3 3

Based on Fit Criteria

% varY

% varX

% Inertia

Figure 24 : ´Evolution des trois crit`eres bas´es sur l’ajustement aux donn´ees en fonction du nombre de composantes. Sur l’exemple, le rang de X est ´egal `a 13.

Il semble raisonnable, pour ´eviter un sur-ajustement aux donn´ees, de choisirkdans l’inter-valle [5,7] pour 80% de la variance deY reconstitu´ee et pour plus de 80% deXreconstruit par les deux crit`eres, inertie et variance.

Notons que pourk= 1, . . . , r, ces trois crit`eres fournissent, par construction, des suites croissantes de valeurs.

9.13.2 Crit` eres bas´ es sur la pr´ ediction

Le mod`ele de r´egression PLS (9.46)

Yˆ(k) = Xβ(k)ˆ ,

bˆati sur l’´echantillon d’apprentissage (X, Y) permet de faire de la pr´ediction. Il est indis-pensable de valider le choix de k par une mesure bas´ee sur la pr´ediction.

Validation externe

On dispose parfois d’un deuxi`eme jeu de donn´ees, appel´e ´echantillon test et not´e (Xt, Yt),

mesur´e sur les mˆemes variables mais sur N individus suppl´ementaires suppos´es de poids identique. Les matrices Xt et Yt sont suppos´ees centr´ees (´eventuellement r´eduites) par rapport aux individus moyens (aux ´ecart-types) des donn´ees brutes de l’´echantillon d’ap-prentissage tels qu’ils ont ´et´e d´efinis au paragraphe 1.9. On dispose en outre, d’une famille de mod`eles{β(k) = [ ˆˆ βij(k)], k = 1, . . . , r}, pour lesquels on ´evalue on ´evalue l’erreur qua-dratique moyenne de pr´ediction sur l’´echantillon (Xt, Yt)

MSE(k) = 1 kopt qui d´epend, bien sˆur, de l’´echantillon test s´electionn´e. Cependant, cette valeur opti-male (au sens du crit`ere) n’est pas forc´ement celle `a retenir lors du choix du nombre de composantes, tout d´epend de la fa¸con dont elle a ´et´e obtenue et de la valeur MSE(kopt).

1 2 3 4 5 6 7 1 2 3 4 5 6 7 1 2 3 4 5 6 7

Figure 25 : Exemples d’´evolution des crit`eres de pr´ediction externe avec k; (a) et (b), validation externe acceptable ; (c), remise en cause du mod`ele et/ou de l’´echantillon test.

Figure 25, trois exemples de validation externe sont pr´esent´es qui tous trois montrent une

´evolution r´eguli`ere du crit`ere avec le nombre de composantes. Ce n’est pas toujours le cas, il arrive parfois que l’arriv´ee d’une composante dans le mod`ele capture l’influence d’une donn´ee atypique et provoque un brusque saut dans l’´evolution du crit`ere.

Une valeur limite pour refuser le mod`ele PLS, sous l’hypoth`ese d’une ´echantillon test fiable, est MSE(kopt) = 1, dans le cas standardis´e. En effet, une telle valeur signifie que, en moyenne, l’approximation d’une r´eponse donne sa valeur moyenne. Ainsi, Figure 25 (c), le mod`ele PLS est rejet´e carkopt= 1 etMSE(kopt)>1. Il faut dans le cas multi-r´eponses,

Calcul Matriciel et Analyse Factorielle des Donn´ees

examiner les graphiques des MSEj(k) pour savoir quelle r´eponse est mal pr´edite ou bien pr´edite.

Les cas (a) et (b), Figure 25, sont ceux pour lesquels le mod`ele PLS est bien valid´e par l’´echantillon test. Si le choix du nombre de composantes est clair pour (a),k=kopt = 4, il est moins ´evident pour (b) et d´epend dans ce cas des autres crit`eres et aussi du “principe d’´economie” : choisir la plus petite dimension dans le cas de valeurs du crit`ere tr`es voisines.

Validation interne ou “validation crois´ee”

Le principe est le mˆeme que pour la validation externe mais bas´e cette fois sur l’´echantillon d’apprentissage. On partage l’´echantillon en deux groupes d’individus, l’un pour bˆatir le mod`ele, l’autre pour le valider et on mesure l’erreur de pr´ediction. On recommence le proc´ed´e sur d’autres bi-partitions de telle sorte qu’un individu ne soit pr´edit qu’une seule fois... `A la fin, on calcule la somme (ou la moyenne) des erreurs quadratiques moyennes obtenues pour les q r´eponses, avec k = 1, . . . , r. Ce proc´ed´e appel´e validation crois´ee, est le plus souvent utilis´e en enlevant, pour ˆetre pr´edit, un seul individu `a la fois. Dans ce cas, la m´ethode est appel´ee “leave-one-out”. En g´en´eral, on tol`ere 10% d’individus s´electionn´es

`a chaque ´etape.

Ecrivons le crit`ere dans le cas “leave-one-out”. On suppose que tous les individus ont´ le mˆeme poids et on note ˆβ(−i)(k) = [ ˆβ(−i)(k)|ji] la matrice p×q des coefficients du mod`ele obtenu pour l’individui“out”. Alors, le PRESS (Predictive Error Sum of Squares), s’´ecrit

P RESS(k) = Xq

j=1

P RESSj(k) et P RESSj(k) = 1 n

Xn i=1

(Yij−Xiβˆ(−i)(k)|j)2. (9.65) La discussion sur le choix de k est identique `a celle de la validation externe. Cependant, la fa¸con dont les groupes d’individus sont enlev´es-pr´edits `a une influence sur le choix de k. Il est souvent conseill´e de recommencer un certain nombre de fois la proc´edure avec permutation des individus. On obtient ainsi une statistique sur le PRESS ce qui robustifie la d´ecision finale en ce qui concerne le choix des partitions.