• Aucun résultat trouvé

Deuxième partie . Courbes principales

2. Choix d’une courbe principale

2.1. Un modèle gaussien

2.1.1. Choix de la longueur

Tout d’abord, nous étudions une méthode de sélection de modèle gaussienne pour choisir la longueur d’une courbe principale. Le contexte est similaire à celui deCaillerie et Michel [46]. Dans toute cette section,Rdest muni du produit scalaire défini par

et k · kdésigne la norme euclidienne associée.

Nous supposons que nous observons des vecteurs aléatoiresX1, . . . ,Xnà valeurs dans Rd suivant un modèle gaussien

Xi =x?i +σξi, i= 1, . . . , n, (2.3) où les x?i sont inconnus, les ξi sont des vecteurs gaussiens standards de Rd in-dépendants et σ > 0 désigne l’intensité du bruit, supposée connue. Notons −→X =

t(tX1, . . . ,tXn) le vecteur (colonne) constitué de l’ensemble des coordonnées des vecteurs aléatoires Xi, i = 1, . . . , n. En définissant de même −→

x? et −→

ξ, le modèle (2.3) se récrit sous la forme

X =−→ x?+σ−→

ξ.

Soient F et G deux points fixés de Rd et L un sous-ensemble dénombrable de ]0,+∞[. Nous introduisons une collection dénombrable {F`}`∈L où chaque en-semble F` est une classe de courbes paramétrées f : I → Rd de longueur ` et d’extrémités F et G. Notre objectif est de sélectionner la longueur `. Nous consi-dérons pour ce faire le critère ∆0n défini par

0n(f) = 1 avons choisie (2.2), il s’agit du critère ∆n(f) (2.1) normalisé par la dimension d, dans le but de faire apparaître dans la suite la norme euclidienne normalisée de Rnd. Supposons que pour tout `∈ L, −→x(n)` = (ˆx1`, . . . ,xˆn`) minimise

en −→x ∈ C` = [

f∈F`

(If)n.

Pour déterminer `, nous cherchons alors à minimiser en ` un critère du type crit(`) = 1

n

Xn i=1

kXixˆi`k2+ pen(`),

où pen :L →R+ est une fonction de pénalité, destinée à empêcher le choix d’une longueur ` trop grande, c’est-à-dire de nature à permettre l’interpolation. Le but est de trouver une fonction de pénalité convenable.

Lorsque les modèles considérés sont linéaires, la pénalité peut être choisie pro-portionnelle à la dimension du modèle (Birgé et Massart [36]). Ici, les modèles C` ne sont pas des sous-espaces vectoriels de Rnd et la dimension doit être remplacée par une autre quantité. Pour mesurer la complexité de ces modèles non linéaires, nous utiliserons l’entropie métrique.

Définition 2.1.1 (Nombre de recouvrement et entropie métrique). Le nombre de recouvrement N(S,k · k, ε) d’un ensemble S est le nombre minimal de boules de rayon ε pour la norme k · k nécessaires pour recouvrir S. L’entropie métrique de S est donnée par

H(S,k · k, ε) = lnN(S,k · k, ε).

Notre approche est basée sur un théorème général de sélection de modèle pour des modèles gaussiens non linéaires (Massart [141]) rappelé dans l’Annexe B.2.

Notons k · knd la norme deRnd normalisée, définie par h−→u,−→vi= nd1 Pndi=1uivi. Pour tout `∈ L, soit ϕ` une fonction telle que ϕ`φ`,φ` est donnée par

φ`(u) = κ

Z u

0

qH(C`,k · knd, ε)dε, (2.4)

avec κ une constante absolue. On définit d` par l’équation ϕ`

d`

nd

!

= σd`

nd.

Supposons qu’il existe une famille de poids{w`}`∈L vérifiant

X

`∈L

ew` = Σ <.

Sous ces hypothèses et avec ces notations, le Théorème 4.18 deMassart [141]s’écrit de la façon suivante.

2.1. Un modèle gaussien

Théorème 2.1.1. Soient η >1 et pen(`)≥ησ2

nd(qd`+√ 2w`)2.

Alors, presque sûrement, il existe un minimiseur `ˆdu critère pénalisé crit(`) = 1

Ce résultat établit, pour une pénalité pen(`) assez grande, une inégalité de type oracle en espérance pour les ˜xi,i= 1, . . . , n. Si nous parvenons à évaluer l’intégrale deDudley [77](2.4), nous pourrons employer ce théorème dans notre contexte afin de sélectionner la longueur `. Nous aurons besoin pour cela de quelques lemmes intermédiaires, dont les preuves sont reportées à la Section 2.4 pour la clarté de l’exposition.

La première étape consiste à contrôler l’entropie métrique des classesC`,`∈ L. Pour ce faire, remarquons que pour tout`∈ L,Sf∈F`If correspond à un ellipsoïde de Rd, noté dans la suite E`.

Lemme 2.1.1. Toute courbe paramétrée de Rd d’extrémités F et G, de longueur

` (` > F G), est incluse dans un ellipsoïde E` de premier axe principal de longueur a=`, les autres axes étant de longueur b=√

`2F G2.

En particulier, dansR2,E` est une ellipse ayant F etGpour foyers, et dansR3, un ellipsoïde de révolution autour de l’axe correspondant à ces deux points.

F• •

Lemme 2.1.2. Supposons abε. Le nombre de recouvrement de C` pour la En majorant, pour tout `∈ L, l’intégrale

φ`(u) = κ

Z u 0

qH(C`,k · knd, ε)dε,

nous pouvons alors définir une fonctionϕ` adéquate.

Lemme 2.1.3. La fonction ϕ` donnée par

ϕ`(r) =

Enfin, pour appliquer le Théorème 2.1.1, il nous faut évaluer d`, défini par l’équation ce qui fait l’objet du lemme suivant.

Lemme 2.1.4. Soit ϕ` donnée par le Lemme 2.1.3. Supposons que

σb admet une solution d` vérifiant

d` ≤8κ2nd ln a1/db11/d

Nous sommes maintenant en mesure d’énoncer le résultat principal de cette section.

2.1. Un modèle gaussien

Théorème 2.1.2. Supposons qu’il existe des poids{w`}`∈L tels que

X

alors, presque sûrement, il existe un minimiseur `ˆdu critère pénalisé crit(`) = 1 Cet énoncé appelle quelques commentaires.

La première remarque concerne le fait que le Théorème2.1.2fait apparaître des constantes inconnues. Si le Lemme2.1.4montre que nous pouvons choisirc1 ≤16κ2 et c2π−ln(2κ√

π), ces valeurs n’apportent pas de véritable information, car il s’agit de majorations, qui sont probablement trop larges. En outre, nous avons supposé la variance du bruit σ connue, et constatons que σ intervient dans la pénalité. Or, le niveau de bruit n’est généralement pas connu en pratique. En fait, l’expression (2.6) ne fournit pas directement une fonction de pénalité, mais son intérêt est d’en donner la forme. Il est possible d’estimer σ séparément et de procéder ensuite par plug-in. Cependant, une autre solution pour trouver c1,c2 et σconsiste à s’appuyer sur la méthode de la pente, déjà utilisée dans les simulations du Chapitre 3et présentée plus en détail dans l’Annexe B.3.

D’après les formules reliant` àaetb, la quantité ln(a1/db11/d) dans la pénalité caractérise chaque modèle de courbes de longueur`. Les autres éléments variant sur

la collection de modèles sont les poids{w`}`∈L. Rappelons que dans le cas linéaire, où chaque modèleS`est de dimensionD`, un choix possible pourw`estw` =w(D`) oùw(D) =cD+ ln|{` ∈ L, D` =D}| etc >0 (voir Massart [141], Section 4.2.1).

S’il n’y a pas de redondance dans la dimension des modèles, cette stratégie revient à choisir w` proportionnel à D`. Par analogie, w` peut ici être pris proportionnel à ln(a1/db11/d). Plus formellement, nous pouvons poser w` =clna1/db11/d, où la constante c >0 est telle que P`∈L ac/dbc(1−1/d)1 = Σ<+∞. Dans ces conditions, la pénalité est finalement proportionnelle à ln(a1/db11/d) et pourrait donc en pratique être calibrée en utilisant l’heuristique de pente.

Observons par ailleurs que la condition (2.5) exprime que le niveau de bruit σ ne doit pas être trop grand par rapport à b. Autrement dit, si b =√

`2F G2 est de l’ordre de σ, il n’est pas possible d’obtenir une courbe principale convenable de longueur `.

Enfin, nous pouvons noter qu’en raison de l’exposant n dans le nombre de re-couvrement dans le Lemme2.1.2— un commentaire à ce sujet est donné à la suite de la preuve du lemme dans la Remarque2.4.1—, la forme de la pénalité obtenue ne tend pas vers 0 lorsque n tend vers l’infini. Ce point est intrinsèquement lié à la géométrie du problème. En effet, sa résolution n’est pas facilitée par l’aug-mentation de la taille de l’échantillon dans la mesure où nous n’avons rien spécifié sur la répartition des x?i. Une piste de recherche future consisterait à supposer que ces derniers sont distribués sur la courbe selon une loi uniforme et à regarder le problème dans le cadre de la sélection de modèle en estimation de densité. Ce point de vue met en jeu des calculs d’entropie à crochets de classes de densités de mélanges gaussiens continus en dimension d.