• Aucun résultat trouvé

Définitions reposant sur une analyse locale

Deuxième partie . Courbes principales

1. Un point sur les courbes principales

1.4. Définitions reposant sur une analyse locale

La classe CK,τ comprend les courbes f de courbure intégrale au plus K, telles que la différence entre la courbure intégrale totale def et la courbure intégrale de la restriction def à une boule tende vers 0 lorsque le rayon de la boule augmente.

Avec cette condition supplémentaire, Sandilya et Kulkarni [166]sont en mesure de démontrer l’existence des courbes principales de courbure intégrale bornée.

Proposition 1.3.2 (Sandilya et Kulkarni [166]). Si EkXk2 < +∞, l’existence d’une courbe principale pour X est garantie.

Soit ˆfk,n une courbe minimisant le critère ∆n(f) sur la classe des lignes polygo-nales àksegments appartenant àCk,τ et dont l’image est incluse dans la bouleBRk. Ici, (Rk)k1 désigne une suite croissante tendant vers l’infini. Le théorème suivant, qui établit une vitesse de convergence de ∆(ˆfk,n) vers le risque optimal, correspond dans le présent cadre au résultat de Kégl et al. [117] énoncé dans le Théorème 1.3.1. L’hypothèse P{X ∈ C}= 1 est remplacée par un contrôle en fonction de R de la quantité EkXk2 en dehors des boules de rayon R.

Théorème 1.3.2 (Sandilya et Kulkarni [166]). Supposons que pour tout R >0, E[kXk21Bc

R(X)]≤Rα.

Si k = n1/3 et ˆfn,k ∈ Ck,τ est une ligne brisée à k segments d’image incluse dans BRk, minimisant le critère empiriquen(f), alors

∆(ˆfk,n)− min

f∈CK,τ

∆(f) =O(n6+3αα ).

1.4. Définitions reposant sur une analyse locale

Les définitions de courbe principale auxquelles nous nous sommes intéressés jusqu’ici sont toutes liées à la propriété d’auto-consistance des composantes princi-pales. Cette dernière intervient explicitement dans la définition originelle deHastie et Stuetzle [104] ainsi que celle de Tibshirani [180], et nous avons vu que réaliser le minimum du critère de type moindres carrés de Kégl et al. [117] etSandilya et Kulkarni [166] revient pour ainsi dire à vérifier cette propriété. La présente sec-tion est consacrée à des points de vue un peu différents, dans lesquels une courbe principale est construite à partir d’une analyse locale.

1.4.1. Courbes principales de points orientés principaux

La définition des courbes principales de points orientés, proposée parDelicado [64] et étendue dans Delicado et Huerta [65], généralise une propriété des com-posantes principales pour la loi normale multivariée, qui exprime que la variance

totale conditionnelle de X, sachant que X appartient à un hyperplan, est mini-male lorsque l’hyperplan est orthogonal à la première composante principale. Pour x∈Rd ety un vecteur unitaire deRd, soit

H(x,y) = {z∈Rd,t(z−x)y= 0},

t(·) désigne l’opérateur de transposition usuel. Ainsi défini,H(x,y) est l’hyper-plan orthogonal ày passant par x. Notons

m(x,y) =E[X|XH(x,y)]

et

φ(x,y) = V T(X|XH(x,y)),

V T(Y) désigne la variance totale d’un vecteur aléatoireY, c’est-à-dire la trace de sa matrice de covariance. Si y?(x) désigne l’ensemble des vecteurs unitaires qui minimisent φ(x,y), notons m?(x) = m(x,y?(x)) l’ensemble des espérances conditionnelles associées. Lorsque m?(x) est réduit à un singleton, son unique élément sera encore noté m?(x).

Nous pouvons à présent énoncer plus précisément la propriété de la loi normale multivariée qui constitue le point de départ de la définition d’une courbe principale de points orientés.

Proposition 1.4.1. Soit X un vecteur gaussien de Rd, de moyenne m et de ma-trice de covarianceΣ. On notev1 le vecteur propre unitaire associé à la plus grande valeur propre de Σ. Alors,

– Il existe un unique vecteur unitaire qui minimise φ(x,y) pour tout x ∈ Rd, et ce vecteur est v1.

– Pour tout x ∈ Rd, m?(x) appartient à la première composante principale y(t) =m+tv1.

– Un élément x de Rd appartient à la première composante principale si, et seulement si, x=m?(x).

Par analogie avec le cas gaussien, Delicado [64] introduit le concept de points orientés principaux.

Définition 1.4.1 (Points orientés principaux). L’ensembleΓ(X)des points orien-tés principaux de X est l’ensemble des éléments x∈Rd tels que xm?(x).

Une courbe principale peut alors être définie à partir de la notion de points orientés principaux.

Définition 1.4.2. La courbe paramétrée f est une courbe principale (de points orientés) pour X si son image est incluse dans Γ(X).

1.4. Définitions reposant sur une analyse locale

Sous certaines hypothèses,Delicado [64] démontre l’existence de points orientés principaux et des courbes principales associées. Remarquons que siy?(x) est réduit à un singleton, comme dans le cas de la loi normale, la définition des points orientés principaux s’écrit m?(x) = x et rappelle ainsi l’auto-consistance. Nous pouvons cependant noter que l’analyse est ici locale, puisque la propriété considérée ne s’applique pas à une courbe, mais à des points de Rd.

Dans le cas d’observationsX1, . . . ,Xn, il faut faire appel au même type de stra-tégie que dansHastie et Stuetzle [104]. En effet, le calcul des espérances et variances totales conditionnelles ne peut se faire directement, puisqu’un hyperplan contient très peu d’observationsXi(une seule voire souvent aucune). Pour contourner cette difficulté,Delicado [64]a recours à une projection des données accompagnée d’une pondération. Plus précisément, étant donné un hyperplan H = H(x,y), notons XHi le projeté orthogonal sur H de l’observation Xi. On définit des poids

wi =w(|t(Xix)y|) =w(kXiXHi k)

west une fonction strictement positive et décroissante. L’espérance condition-nelle est remplacée par la moyenne des observations projetées XHi pondérée par les wi. La variance totale conditionnelle est également définie de cette manière.

1.4.2. Composantes principales locales

Dans l’approche deEinbeck, Tutz et Evers [82], une courbe principale est calcu-lée à partir d’un ensemble de premières composantes principales locales. Ce point de vue donne lieu à l’algorithme suivant. Soit Kh la fonction définie par

Kh(x) = K(x/h)

hd , x∈Rd,K est un noyau en dimension d eth >0.

Partant d’un point x =x(0) ∈ Rd, qui est par exemple choisi au hasard parmi les observations, on calcule la moyenne empirique locale

ˆ mx =

Xn i=1

wiXi,

wi = Kh(Xix)/Pn`=1Kh(X`x). Une analyse en composantes principales est alors effectuée localement autour de x. Soit ˆΣx = (ˆσjkx)1j,kd la matrice de covariance empirique locale, définie par

ˆ σjkx =

Xn i=1

wi(Xijmˆxj)(Xikmˆxk).

Si ˆγx désigne le premier vecteur propre de ˆΣx, la première composante principale locale autour de x est donnée par ˆvx(t) = ˆmx+tˆγx. Ensuite, la valeur de x est actualisée en posantx(1) = ˆmx+hˆγx, et ces étapes sont itérées jusqu’à ce que ˆmx reste approximativement constante, la limite des observations ayant été atteinte.

Afin de visiter tout le nuage de données, la même procédure est appliquée dans la direction opposée −ˆγx, excepté dans le cas particulier d’une courbe fermée.

Mentionnons que l’algorithme de courbes principales proposé parVerbeek, Vlas-sis et Kröse [185], conVlas-sistant à assembler des segments pour obtenir une courbe principale polygonale, est également basé sur une analyse en composantes princi-pales locale.