Étude de la convergence - Expériences de mise à jour du dictionnaire

Chapitre 3 Arbres de Convolution pour l’Apprentissage multi-atomes

3.4 Expériences de mise à jour du dictionnaire

3.4.6 Étude de la convergence

Mise en place

Du fait de la non convexité du problème (F T L), il est important d’essayer de caractériser la convergence des expériences de mise à jour du dictionnaire proposées. En effet, quelle est la proba- bilité de trouver un minimiseur global lorsque les noyaux sont initialisés par des valeurs aléatoires ? Autrement dit, nous nous intéressons à la taille du bassin d’attraction de la fonction objectif lorsque la taille des supports et le nombre de noyaux par niveau J varient.

Nous considérons des tailles de support de 2 × 2 à 5 × 5, des valeurs de J ∈ {1, 2, 3} et relançons donc les expériences 3.4.4 et 3.4.5 499 fois en tirant à chaque fois une initialisation aléatoire des noyaux, à la façon décrite dans le chapitre précédent dans la section 2.4.5.

∀e ∈ E, he_p      ∼ N (0, 1) , if p ∈ rg (Se₎ = 0 , otherwise.

Notons que la valeur du minimum global peut différer selon les paramètres, et qu’il nous est impos- sible de la connaitre, les atomes de curvelets et de paquets d’ondelettes n’ayant pas été générés par notre modèle. Nous recensons donc simplement les valeurs de NRE obtenues à convergence dans un histogramme cumulé pour chaque jeu de paramètres.

Résultats

Les figures 3.24 et 3.25 montrent les probabilités cumulées (calculées sur 499 lancers) d’obtenir une valeur de NRE inférieure à la valeur en abscisses. Autrement dit, nous y représentons une estimation de la fonction de répartition des valeurs de NRE. L’observation de ces figures mène à trois constatations. D’abord, une augmentation du nombre de noyaux ou de la taille de support contribue à améliorer la qualité de la convergence obtenue. Ensuite, les valeurs de NRE obtenues sont toujours concentrées sur une plage étroite (il n’y a parfois qu’un seul bassin d’attraction). Cette plage a tendance à s’élargir lorsque le support et J grandissent. La non convexité de la fonction objectif ne se fait donc sentir que lorsque le nombre de degrés de libertés du modèle augmente considérablement. Enfin, la présence de pentes douces (au lieu de marches d’escaliers) laisse supposer des convergences

120 _{Chapitre 3 - Arbres de Convolution pour l’Apprentissage multi-atomes}

Figure 3.24 – Estimation de la fonction de répartition des valeurs de NRE obtenues pour l’estimation du dictionnaire de curvelets lorsque les noyaux sont initialisés aléatoirement. L’ordonnée d’un point donne la probabilité d’obtenir un NRE au moins aussi petit que la valeur en abscisses.

imparfaites dans le même bassin d’attraction, et donc que la fonction objectif est très plate autour de ses minima.

D’autre part, pour chacun des jeux de paramètres étudiés, nous avons réalisé une 500ième initialisation, qui au contraire des autres est déterministe. Elle consiste à initialiser tous les noyaux du dictionnaire à un symbole de Kronecker en (0, 0), l’élément neutre de la convolution discrète. Il s’avère que la valeur de NRE obtenue pour cette initialisation est presque toujours égale à la plus petite valeur de NRE trouvée parmi les 499 initialisation aléatoires. S’il n’est pas parfaitement clair que cette initialisation déterministe soit toujours située dans le bassin d’attraction d’un minimum global, le nombre moyen de relances aléatoires nécessaires pour produire une meilleur NRE est tout simplement prohibitif. C’est pourquoi c’est l’initialisation qui a été utilisée pour les expériences d’estimation de dictionnaire.

3.4 - Expériences de mise à jour du dictionnaire 121

Figure 3.25 – Estimation de la fonction de répartition des valeurs de NRE obtenues pour l’estimation du dictionnaire de paquets d’ondelettes lorsque les noyaux sont initialisés aléatoirement. L’ordonnée d’un point donne la probabilité d’obtenir un NRE au moins aussi petit que la valeur en abscisses.

122 _{Chapitre 3 - Arbres de Convolution pour l’Apprentissage multi-atomes}

3.5 Conclusions et perspectives

Dans ce chapitre, nous avons complété le modèle d’apprentissage de transformée rapide développé dans le chapitre 2, le dotant de la capacité d’apprendre un dictionnaire entier d’atomes.

Pour cela, nous avons défini une structure d’arbre pour organiser de manière intelligente les noyaux de convolution servant à l’estimation des atomes du dictionnaire. Cette structure fournit une représentation très compacte des éléments du dictionnaire et maximise l’efficacité de l’opérateur de synthèse. À la parcimonie des noyaux s’ajoute la mise en commun d’une partie d’entre eux à plusieurs branches de l’arbre pour réduire l’espace de recherche.

Nous avons proposé un algorithme différent, toujours basé sur des minimisations alternées, pour résoudre le nouveau problème posé. Cet algorithme fait appel à un parcours intelligent de l’arbre et à des pas de gradient proximal pour calculer rapidement les mises à jour du dictionnaire. Malgré un modèle à multiples atomes, la complexité de la mise à jour reste linéaire par rapport à la taille de l’image. De plus, cet algorithme est prêt à intégrer une étape de mise à jour du code sans avoir à changer de formalisme.

Nos expériences confirment la capacité du modèle à approximer une vaste classe d’atomes. Elles indiquent également que la conception ou le choix de la structure de l’arbre joue un rôle crucial non seulement dans l’efficacité mais également dans la qualité de la représentation. Nous obtenons en effet de meilleures estimations avec des arbres basés sur des pyramides de pavages fréquentiels inspirés de schémas de décompositions adaptés aux atomes cibles. Enfin, les tests de convergence menés montrent que le bassin d’attraction du minimum global est de bonne taille et qu’il est réaliste d’espérer l’atteindre.

Bien sûr, les performances du modèle dépendent toujours de plusieurs paramètres complexes à explorer comme la taille et la forme des supports, ou encore la structure de l’arbre. Pour pouvoir calculer des représentations plus performantes, il sera nécessaire d’adapter au mieux ces paramètres aux spécificités de l’application visée. Dans le futur, il serait intéressant de permettre au modèle de laisser évoluer les supports et/ou la structure de l’arbre.

Dans le document Apprentissage d'arbres de convolutions pour la représentation parcimonieuse (Page 149-153)