• Aucun résultat trouvé

sens des moindres carrés fonctionne très bien, mais ce n’est plus le cas lorsque le lien entre les données et le paramètre recherché devient non-linéaire. Par ailleurs, l’analyse en composantes principales étant une méthode de projection linéaire, elle ne permet donc pas à elle seule de prendre en compte les non-linéarités.

3.2.1 Régression non-lineaire

Les méthodes de régression non-linéaires classiquement utilisées dans la littérature ne sont pas utilisables pour le traitement des non-linéarités dont on ne connait pas la nature. Les méthodes communes font appel à des a priori indisponibles dans le cas des données de spectroscopie stellaire. En effet, il est souvent nécessaire de connaître le type de non- linéarités auxquelles on fait face. Ainsi, on peut appliquer une régression aux données en les projetant sur une variété caractérisée par une fonction non-linéaire, mais dans ce cas il faut savoir quel type de fonction définit ladite variété. L’approche des courbes principales (principal curves), (Hastie & Stuetzle, 1989), permet de trouver une variété optimale pour appliquer une régression aux données, même si cette approche est limitée à des variétés 1D et repose sur la non-convergence de l’algorithme.

Figure 3.3 – Représentation de l’ACP à gauche, la principal curve idéale au centre et à droite dans le cas où l’on laisse l’algorithme aller trop loin et que la courbe suit le bruit. Les abcisses et ordonnées représentent les composantes de l’espace de départ.

Les courbes principales, illustrées à la figure 3.3, part de la première composante prin- cipale et cherche à partir de celle-ci, itérativement, une courbe qui minimise une erreur quadratique entre les points et leurs projections. Le problème est que l’algorithme converge vers une courbe qui passe par tous les points et ne représente plus les données mais le bruit. Pour l’estimation des valeurs des paramètres, il n’est pas nécessaire de connaître la variété en tout points de l’espace et on peut se contenter d’une régression linéaire qui approxime localement cette variété. C’est ce que nous présenterons par la suite.

3.2.2 Régression linéaire locale

Un moyen de pallier le problème des non-linéarités est de définir une zone plus restreinte de l’espace des données où l’hypothèse de linéarité est localement respectée autour de l’échantillon que l’on souhaite traiter. Un problème commun avec le critère d’arrêt des courbes principales consiste à définir la zone locale. Si la zone est trop petite, le régresseur est trop sensible au bruit ; si la localité est définie comme trop étendue, alors on perd complètement la sensibilité aux non-linéarités.

Figure 3.4 – Illustration des trois cas lors de la mise en place d’un régresseur local. Le but est d’approcher localement la courbe verte (liant les abscisses et les ordonnées) grâce aux directions de projection (flèches noires). Dans le cas de gauche, la zone considérée (celle à l’intérieur du cercle) est trop petite, dans le cas de droite, la zone considérée est trop grande, au centre, la zone permet d’avoir une droite qui, localement, autour du point bleu considéré, correspond à la courbe verte.

La figure 3.4 montre trois cas où l’on essaie d’approcher localement une variété par une droite. L’objectif est de se placer dans le cas du centre, là où la zone vérifie l’hypothèse de linéarité. Pour trouver le voisinage le plus efficace, on peut se demander ce qui se passe lorsque le voisinage est trop petit. Tant que l’on a une zone suffisamment grande, la corrélation que l’on recherche est plus grande que le bruit et la suppression de peu de points a peu d’impact. Dans le cas ou le voisinage est trop petit, une modification légère dans la position d’un ou quelque points modifie beaucoup les caractéristiques du régresseur. On cherche donc le voisinage le plus petit possible, robuste à une faible modification. Une manière de trouver la taille optimale pour la zone est de définir le voisinage minimisant l’erreur de reconstruction, c’est-à-dire l’erreur moyenne entre les valeurs du paramètre des individus de la base de référence du voisinage, et leur estimation mutuelle par régression sur la direction obtenue.

3.2.3 Estimation basée sur les k-plus proches voisins

L’approche par la méthode des k-PPV ne fait pas appel à une méthode de régression linéaire. Dans le cadre d’une régression, l’hypothèse sous-jacente à l’emploi des k-PPV est que localement les valeurs du paramètre sont proches. Ainsi, cette méthode, par rapport aux régressions locales, traite tous les individus en définissant un voisinage suivant le même

critère. On estime la valeur du paramètre de l’individu recherché5comme étant la moyenne

des valeurs du paramètre des voisins. Lorsque l’on applique ce type de méthodes, la dé- finition du voisinage considéré est cruciale encore une fois. On souhaite donc définir un voisinage dont les valeurs du paramètre varient peu, voisinage dont le centre de gravité est suffisamment près de l’individu que l’on souhaite identifier pour que l’on puisse les considérer comme indiscernables. Il faut aussi faire attention de ne pas considérer trop peu de voisins, faute de quoi la méthode sera très sensible aux données aberrantes (ayant une valeur pour laquelle le bruit sort des statistiques qui le définissent).

3.2.4 Sélection de directions pertinentes

Ce paragraphe essaie d’apporter une solution en partant du principe que le sous-espace obtenu par la méthode de projection n’est pas partout le plus pertinent (quelle que soit la zone de l’espace où la projection est appliquée). Dans la mesure où le lien entre le paramètre recherché et les données serait non-linéaire, on espère par le biais de la méthode de projection (ici l’ACP) trouver le sous-espace de dimension la plus petite contenant la variété 1D correspondant à la variation des valeurs du paramètre. Mais il n’est pas évident que cette variété s’exprime sur tous les axes en tout point de l’espace. Il est bien possible que dans certains cas, pour certaines valeurs du paramètre, cette variété soit colinéaire (ou quasi colinéaire) à l’une des directions de l’espace, ou située dans un hyper-plan du sous- espace. Dans ce cas, considérer la totalité de l’espace pour l’estimation serait une erreur car on ferait entrer plus de bruit dans l’estimation. Un autre cas serait celui où pour une réalisation de x, un vecteur de données, la projection sur le sous-espace donne plusieurs 5. L’individu pour lequel on ne connaît que la valeur du vecteur de données mais pas les valeurs prises par les paramètres.

valeurs probables pour y. Ainsi la projection sur certaines directions va tendre à montrer que l’estimateur de y peut prendre deux valeurs Y 1 ou Y 2 différentes, avec chacune des

probabilités comparables, là où d’autres directions ne seront pas ambiguës6. Dans ces zones

du sous-espace, ignorer les solutions ambiguës permet de réduire l’erreur d’estimation. L’exemple simple de la figure 3.5 montre une réalisation de x dont la projection sur la

première direction x1 a abouti à la valeur X17 et la projection sur la seconde direction

x2 a donnée la valeur X2. Or, lorsque l’on trace la densité de probabilité conditionnelle à

cette réalisation, on observe deux modes espacés sur la direction 1 et un seul mode sur la direction 2.

σˆy|X1 σˆy|X2

Figure 3.5 – Densité normalisée de y = Y sachant une réalisation particulière de X. On observe que la valeur de y présente deux solutions suivant x1 et une seule solution suivant

x2. Dans ce cas ne pas considérer x1 lève l’ambiguïté.

6. Les solutions ambiguës sont celles qui sont multiples (quasi-équiprobable) et très différentes là ou nous cherchons une solution unique

Employer, dans cet exemple, l’intégralité du sous-espace ne permettrait pas d’obtenir une estimation pertinente de la valeur de y. En effet, une estimation par moyenne empirique aboutirait à un résultat autour de 0.5 (moyenne entre 0.4 et 0.6) qui est un résultat très peu probable quelle que soit la direction que l’on regarde. Le maximum de vraisemblance donnerait aussi un résultat ambigu, 0.8 ou 0.4. Ce que nous proposons, c’est de conserver la combinaison de directions (le sous-espace, et dans cet exemple, la direction) qui minimise la variance sur y dans l’espace de projection. Ainsi, en regardant la variance sur y des plus proches voisins suivant la projection choisie, on en vient à déterminer que :

σˆy|X2< σˆy|X1 , (3.2)

où σˆy|X2 et σˆy|X1 sont les variances des valeurs du paramètre sachant respectivement les réalisation X1 et X2 résultats des projections des données sur les directions x1 et x2.

Ainsi, nous pouvons appliquer indifféremment une méthode des k-PPV ou de régression linéaire, mais sur un sous-espace différent pour chaque individu. Le sous-espace optimal choisi pour chaque individu sera celui qui minimise la variance empirique sur y dans le voisinage de celui-ci.

On peut opposer à cette approche qu’il aurait sans doute été plus optimal de créer un sous-espace optimisé pour chaque individu en appliquant la méthode de projection (par exemple une ACP) sur le voisinage. Mais cela réduit le nombre d’individus utilisés pour le calcul du sous-espace et pose des problèmes de stabilité aux méthodes. En effet, les matrices de données se retrouvent rapidement avec beaucoup moins d’individus que la dimension de l’espace des données. De plus, le même phénomène que pour les régressions locales se produit si il y a trop peu d’individus pour la construction du sous espace et l’influence du bruit dans le choix des directions augmente.

Documents relatifs