• Aucun résultat trouvé

Exemple d’un regroupement de données Les vecteurs encerclés sont les vec-

Partie II Contribution expérimentale

C.3 GP a posteriori

1.9 Exemple d’un regroupement de données Les vecteurs encerclés sont les vec-

1.7

Conclusion

Nous avons présenté une introduction à la théorie et à l’utilisation des fonctions noyaux. Le concept principal de leur fonctionnement est la projection (implicite) des données vers un espace de caractéristiques (également décrite comme une variété différentiable dans un espace de haute dimension).

Les fonctions noyau agissent dans les espaces de caractéristiques F . Chaque élément de l’espace de départ x possède une image Φ(x) ∈ F . Normalement les images Φ(x) ne sont pas connues, mais leur produit scalaire est obtenu en utilisant la fonction noyau.

Les espaces F sont considérés comme des espaces de Hilbert. Ils généralisent la notion d’espace euclidien à des espaces de dimension infinie. Un espace de Hilbert est un espace aux propriétés suivantes :

1. il est muni d’un produit scalaire.

2. toute suite de vecteurs tend vers une limite.

3. il possède un sous-ensemble dénombrable dont tous les éléments peuvent être déterminés. 4. il peut être vu comme un espace de fonctions.

5. chacun de ses éléments est déterminé par les coordonnées d’une base orthonormée. Un espace de Hilbert contient un vaste ensemble de fonctions. Une manière de restreindre ces espaces est de les construire à partir d’une fonction noyau et d’un ensemble X ⊂ Xp. Ces

1.7. Conclusion Le choix des fonctions noyaux est vaste. En effet, n’importe quelle fonction qui peut être calculée efficacement et qui correspond au calcul du produit scalaire des projections appropriées de ses deux arguments, est potentiellement une fonction noyau. Dans la pratique, l’application d’une fonction noyau implique de sélectionner celle qui reflète le mieux les connaissances a priorique nous avons des données et des formes que nous voulons identifier.

Nous avons présenté certains exemples d’utilisation des fonctions noyau en tâches de ré- gression, de classification et de regroupement. La procédure de résolution est celle-ci :

1. définir une fonction de perte.

2. décrire le problème et ses contraintes. 3. déterminer le Lagrangien.

4. exprimer le Lagrangien en termes des coefficients de Lagrange (« expression duale »). 5. maximiser l’expression duale avec l’optimisation quadratique.

6. définir des paramètres à l’aide des conditions de complémentarité de Karush-Kuhn-Tucker. De cette manière, on peut trouver l’hyperplan séparateur de marge maximale dans l’espace de caractéristiques qui sépare deux classes de données, on peut trouver une fonction de régres- sion qui établisse un compromis entre la fonction de perte et la complexité de la solution et on peut trouver la plus petite hypersphère qui encercle tous les points dans F . Il est important de remarquer le caractère flexible et non-linéaire des solutions obtenues.

Chapitre 2

Méthodes spectrales pour l’apprentissage

de variétés

Sommaire

2.1 Introduction . . . 45 2.1.1 Dimensionnalité intrinsèque des données . . . 45 2.1.2 La malédiction de la dimensionnalité . . . 46 2.2 Méthodes linéaires . . . 49 2.2.1 Analyse en composantes principales . . . 49 2.2.2 PCA probabiliste. Modèle de variables latentes . . . 51 2.2.3 Algorithme d’échelle multidimensionnelle . . . 56 2.3 Méthodes non-linéaires . . . 57 2.3.1 Isomap . . . 58 2.3.2 Locally Linear Embedding . . . 63 2.3.3 Laplacian Eigenmaps . . . 70 2.3.4 GPLVM. Modèle non-linéaire des variables latentes . . . 77 2.3.5 Kernel PCA . . . 80 2.4 Conclusion . . . 85

2.1. Introduction

2.1

Introduction

Actuellement, il est très courant de traiter des données de haute dimensionnalité avec les algorithmes d’apprentissage automatique. Ceci s’applique par exemple aux images (définies en termes de pixels), aux documents textuels (qui se distinguent entre eux par des mots clés) ou aux gènes (considérés comme des chaînes de caractères). La complexité de ces algorithmes est liée à la dimension p et à la taille n de l’ensemble de données de départ.

Une approche pour réduire la dimensionnalité des données et améliorer l’efficacité des algo- rithmes est l’apprentissage non supervisé des variétés [Bur05]. Ces techniques considèrent que les données de haute dimensionnalité sont des échantillons d’une variété de faible dimension. Elles nous permettent d’obtenir cette structure et de travailler avec des solutions plus robustes (moins sensibles au bruit et aux données aberrantes). Elles sont aussi utiles pour analyser vi- suellement la structure de l’information. La représentation de données en faible dimension nous aide à interpréter leur processus de génération, leurs inter-relations et leurs regroupements.

L’étude de variétés peut être utilisée également en apprentissage supervisé [Bel06]. Elle permet de découvrir des invariants et l’information géométrique associée à la distribution des données dans l’espace original.

Les méthodes présentées dans ce chapitre sont fondées sur les décompositions dites spec- trales. Le principe des algorithmes spectraux d’estimation de variétés repose, pour un ensemble de vecteurs de départ X = {x1, x2, . . . , xn}, X ⊂ X ⊆ Rp, sur le calcul d’une matrice de

similarité Kn×n, et sur la recherche des principaux vecteurs et valeurs propres de K. Pour la

construction de cette matrice, on utilise des algorithmes connus : optimisation, parcours de graphes, méthode de moindres carrés ou programmation semidéfinie [Ben04].

La représentation en faible dimension yi de chaque vecteur xide départ est obtenue avec la

n-ièmecoordonnée des q premiers vecteurs propres de K(q  p), où avec la projection de xi

sur ces q vecteurs propres, selon l’algorithme utilisé. Idéalement, un algorithme de réduction de la dimensionnalité doit estimer la valeur q optimale, mais ce n’est pas toujours le cas.

2.1.1

Dimensionnalité intrinsèque des données

Le concept courant de dimensionnalité est « le nombre de paramètres nécessaires pour décrire la position d’un objet dans l’espace » [Bri07a]. Par exemple, localiser un point sur une carte demande deux paramètres : la latitude et la longitude. Cette définition montre que la dimensionnalité est invariante : même si l’on change le système de coordonnées (par exemple de rectangulaire à polaire), on aura toujours besoin de deux paramètres pour exprimer la position d’un objet sur la carte. L’espace associé à l’exemple précèdent est appelé euclidien et il est en général n-dimensionnel. La dimensionnalité d’un espace euclidien est celle de l’objet qui

peut séparer complètement un groupe d’éléments du reste, plus un. Par exemple, un plan est un espace de dimension 2 car il peut être divisé par une ligne, qui est un objet de dimension 1.

Si l’on observe la figure 2.1, on voit que la position des données peut être décrite avec deux variables, t1 et t2(dimensionnalité ambiante) mais aussi avec un seul paramètre, l’angle ϕ

(dimensionnalité intrinsèque). On définit alors la dimensionnalité intrinsèque d’un ensemble comme « le nombre minimal de variables nécessaires pour décrire la position des vecteurs sans ambiguïtés » [Fuk90]. Si les composantes d’un ensemble sont indépendantes, alors la dimen- sionnalité intrinsèque est la même que la dimensionnalité ambiante.

FIG. 2.1 – Exemple d’un ensemble de données en 2 dimensions qui possède une dimension