Courbes principales de longueur bornée - Un problème de minimisation de moindres carrés

Deuxième partie . Courbes principales

1. Un point sur les courbes principales

1.3. Un problème de minimisation de moindres carrés

1.3.1. Courbes principales de longueur bornée

=E^hkX−f(tf(X))k²ⁱ, (1.5) oùtf est l’indice de projection défini plus haut (1.1), est étroitement lié à la pro-priété d’auto-consistance caractérisant la définition de Hastie et Stuetzle [104].

1.3.1. Courbes principales de longueur bornée

La première des deux définitions de courbes principales sous forme de problème de moindres carrés est celle deKégl, Krzyżak, Linder et Zeger [117], qui considèrent des courbes principales de longueur bornée.

Définition 1.3.1. Une courbe f est une courbe principale de longueur (au plus) L > 0 pour X si f minimise ∆(f) sur toutes les courbes paramétrées de longueur inférieure ou égale à L.

Observons qu’une courbe principale n’est ici pas supposée différentiable, comme dans le cas de Hastie et Stuetzle [104], mais seulement continue. La définition en-globe ainsi les lignes polygonales. Ces dernières jouent un rôle important dans le point de vue deKéglet al.[117], en particulier en ce qui concerne le côté algorith-mique. La définition de la longueur d’une courbe non supposée différentiable est donnée dans l’AnnexeC (Définition C.2.1).

Avec cette définition, le problème de l’existence d’une courbe principale est résolu, puisque, comme le montre la proposition suivante, la réponse est positive dans un cadre très général.

Proposition 1.3.1 (Kégl et al. [117]). Dès que EkXk² < +∞, l’existence d’une courbe principale pour X est assurée.

Kégl et al. [117] remarquent que leur définition est liée à celle d’un quantifica-teur optimal. En effet, il s’agit dans les deux cas de minimiser un critère de type moindres carrés. En cherchant quelle est la relation entre la définition de Hastie et Stuetzle [104] et celle de Kégl et al. [117], nous sommes naturellement amenés à considérer cette analogie avec la quantification. Comme nous l’avons vu dans le Chapitre 1 de la première partie, si k ≥ 1 est un entier, un k-quantificateur q : R^d → {c1, . . . , c`}, ` ≤ k, est défini par les centres c1, . . . , c` et la partition S1, . . . , S` deR^d obtenue en posantx∈Sj lorsque q(x) =cj. Pour un ensemble de centres donné, le meilleur quantificateur (au sens de la distorsion) est celui associé

1.3. Un problème de minimisation de moindres carrés

à la partition de Voronoi (Lemme1.4.1), et à même partition, les centres optimaux sont donnés par cj = E[X|X ∈ Sj], j = 1, . . . , ` (Lemme 1.4.2). Dans le cas des courbes principales, la courbe f joue le rôle de la table de codage c, et l’indice de projection celui de la partition. Nous savons qu’étant donné une courbe f, nous pouvons calculer l’indice de projection tf associé, défini par

tf(x) = sup{t∈I,kx−f(t)k= inf

t⁰ kx−f(t⁰)k}. D’autre part, pour une fonction s:R^d→I donnée,

f(t) =E[X|s(X) =t]

minimise E[kX−yk²|s(X) =t] sur R^d. En effet, si t∈I et y∈R^d, E[kX−yk²|s(X) =t]

=E[kX−f(t) +f(t)−yk²|s(X) = t]

=E[kX−f(t)k²|s(X) =t] +E[kf(t)−yk²|s(X) = t], car E[hX−f(t),f(t)−y)i|s(X) = t] = 0. Ainsi,

E[kX−f(t)k²|s(X) = t]≤E[kX−yk²|s(X) =t],

avec égalité si, et seulement si, y = f(t). Dans cette analogie, la définition de courbe principale de Hastie et Stuetzle [104] correspondrait en quantification à une définition implicite d’un quantificateur optimal

cj =E[X|X∈Sj(c)], j = 1, . . . , `,

où la partitionS1, . . . , S` n’est pas fixée, mais dépend elle-même dec1, . . . , c`, tout comme tf dépend de f.

En pratique, la loi du vecteur aléatoireX est inconnue et nous disposons d’ob-servations X₁, . . . ,X_n supposées indépendantes et de même loi que X. Le critère

∆(f) est alors remplacé par sa version empirique

∆n(f) = 1 n

Xn i=1

inft∈IkX_i−f(t)k² = 1 n

Xn i=1

kX_i−f(tf(Xi))k². (1.6) Dans le Chapitre1de la première partie, le risque d’un quantificateur empirique optimal est comparé avec le risque optimal (Section1.5). Dans le présent contexte, la qualité d’une courbe principale obtenue en minimisant le critère empirique ∆n(f) peut être évaluée de manière semblable. Considérant une ligne polygonale ˆf_k,n à k segments et de longueur au plusL, minimisant ∆n(f),Kéglet al.[117]s’intéressent ainsi à la convergence du critère ∆(f) pris en ˆf_k,n vers le minimum de ∆(f) sur toutes les courbes paramétrées de longueur inférieure ou égale à L. Sous certaines hypothèses, ces auteurs obtiennent une vitesse de convergence en n⁻^1/3.

Théorème 1.3.1 (Kégl et al. [117]). Supposons que P{X∈ C} = 1, où C est un convexe fermé borné deR^d. SoitFLl’ensemble des courbes paramétrées de longueur au plus L, dont l’image est incluse dans C. Si k est proportionnel à n^1/3 et ˆf_k,n désigne une ligne brisée à k segments de longueur au plus L minimisant le critère

∆n(f), alors

∆(ˆf_k,n)−min

f∈FL

∆(f) =O(n⁻^1/3).

D’un point de vue pratique, Kégl et al. [117] proposent un algorithme itéra-tif baptisé Polygonal Line Algorithm qui fournit une ligne brisée, approximation de courbe principale. L’algorithme est initialisé au moyen du plus petit segment correspondant à la première composante principale qui contienne toutes les pro-jections des données. A chaque itération de l’algorithme, un sommet et donc un segment est ajouté à la ligne polygonale courante, puis les positions des sommets sont recalculées dans une boucle interne basée sur une étape de projection et une étape d’optimisation.

bv1

s2 v^b₃

bv₄

Figure 1.6.: Numérotation des segments et sommets pour k = 3.

A l’itération k, soit f_k,n une ligne polygonale de sommets v1, . . . , vk+1 et de segments s1, . . . , sk comme dans l’exemple de la Figure1.6.

Au cours de l’étape de projection, les données X₁, . . . ,X_n sont réparties dans au plus 2k + 1 ensembles disjoints. Plus précisément, pour x ∈ R^d, notons

∆(x,f) = inft∈Ikx−f(t)k², ∆(x, sj) = infy∈sjkx−yk², pour j = 1, . . . , k, et

∆(x, vj) =kx−vjk², pour j = 1, . . . , k+ 1. Soient

Vj ={x∈R^d,∆(x, vj) = ∆(x,f),∆(x, vj)<∆(x, v`), ` = 1, . . . , j−1}, pourj = 1, . . . , k+ 1, et

Sj =

x∈R^d\

k+1[

j=1

Vj,∆(x, sj) = ∆(x,f),∆(x, sj)<∆(x, s`), `= 1, . . . , j−1

, pour j = 1, . . . , k. Ces ensembles forment une partition de R^d, comme l’illustre la Figure 1.7. En fonction du segment ou du sommet sur lequel se trouve sa pro-jection sur la courbe, chaque observation est alors affectée à l’un des ensembles V1, . . . , Vk+1, S1, . . . , Sk.

1.3. Un problème de minimisation de moindres carrés

S_j+1 Sj

S_j₋₁

Sj−2

Vj−2

Vj−1

V_j

V_j+1 Vj+2

Figure 1.7.: Les ensembles V₁, . . . , V_k+1 et S₁, . . . , S_k formant une partition de R². L’étape d’optimisation consiste ensuite à ajuster les positions des sommets.

La nouvelle localisation du sommet vj est déterminée en minimisant le critère 1

X_i∈Sj−1

∆(Xi, sj−1) + ^X

X_i∈Vj

∆(Xi, vj) + ^X

X_i∈Sj

∆(Xi, sj)

, (1.7)

auquel s’ajoute une pénalité sur les angles. Le sens du critère (1.7) est le suivant : pour optimiser la position du sommetvj, on minimise une version locale de ∆n(f), dans laquelle interviennent seulement les données qui se projettent sur ce sommet vj ou sur l’un des deux segments contigus. Le terme de pénalité utilisé est pro-portionnel à la somme des cosinus des angles correspondant aux sommets vj−1, vj

et vj+1. Eviter les angles trop aigus permet en effet de contrôler la longueur de la courbe.

Avant l’ajout d’un nouveau sommet, les positions des sommetsv1, . . . , vk+1sont ainsi recalculées de manière cyclique, avec un critère d’arrêt reposant sur la varia-tion du critère ∆n. Un ajout de sommetse fait en prenant le milieu du segment sur lequel se projettent le plus grand nombre de données. En cas d’égalité, le segment le plus long est choisi (voir Figure 1.8).

L’algorithme, résumé dans la Figure1.9, se termine lorsquekdépasse un certain seuil, construit heuristiquement et réglé expérimentalement sur plusieurs essais.

Cette condition d’arrêt fait intervenir le nombre d’observations n et le critère em-pirique ∆n. Observons qu’il serait intéressant de disposer d’un choix automatique du nombre adéquat de segments avec une garantie théorique. Ce problème sera étudié dans le Chapitre 2.

•

Figure 1.8.: Ajout d’un sommet. On cherche les segments sur lesquels se projettent le plus grand nombre de données : le nouveau sommet, qui sera ensuite ajusté, est le milieu du plus long d’entre eux.

Sortie

Figure 1.9.: Schéma résumant le Polygonal Line Algorithm.

1.3. Un problème de minimisation de moindres carrés

Dans le document Apprentissage statistique non supervisé : grande dimension et courbes principales (Page 170-175)