• Aucun résultat trouvé

Approfondir l’exploration de l’espace de recherche

Evaluation d’un degré d’inclusion entre clauses

3.1 Première approche de l’inclusion

4.2.3 Approfondir l’exploration de l’espace de recherche

Dans la recherche de la solution cachée, le fait que Iπ < 1 dans la région de la TP est dû à la forte concentration de problèmes difficiles dans cette région, ce qui rend notre heuristique moins efficace pour explorer l’espace de recherche. Pour améliorer ces résul-tats, on peut alors parcourir de façon plus poussée l’espace de recherche en augmentant le nombre d’itérations maxIter dans les algorithmes AMC_Guidé et AMC_non_Guidé. C’est ce que nous avons réalisé dans l’expérience suivante où le nombre d’itérations varie de 100 à 2500 pour étudier son influence sur les performances de ces deux algo-rithmes. Les résultats sont présentés dans la figure 4.6.

On observe que, dans la région OUI (valeurs de m≤ 16), le comportement des deux algorithmes est sensiblement le même : la matrice INC contenant une grande proportion d’éléments égaux à 1, l’appariement est faiblement guidé par la matrice INC. Dans les deux cas, un nombre d’itérations généralement inférieur à 100 permet de retrouver une des solutions complètes.

4.2. Etude de l’algorithme Iπdans la transition de phase 1 10 100 1000 maxiter 10 15 20 25 30 m = L I! 1 0,18 0,3 0,98 0,95 0,9 0,8 0,7 0,5

(a) Variante unGuided

1 10 100 1000 maxiter 10 15 20 25 30 m = L I! 1 0,98 0,95 0,90 0,80 0,70 0,50 0,30 0,18 (b) Variante guided

Figure 4.6 –Evolution de l’indice Iπen fonction des paramètres m = L et du nombre d’itérations maxIter; l’échelle en abscisse est logarithmique. (a) Algorithme AMC_non_Guidé. (b) Algorithme AMC_Guidé. Les lignes en pointillés délimitent la zone de transition de phase de la figure 4.3.

Dans la région de la TP (16≤ m = L ≤ 18), les deux algorithmes deviennent moins performants. Par contre, l’algorithme guidé par la matrice INC s’avère meilleur que la version non guidée dans le sens où d’une part, il trouve une solution complète (Iπ= 1) pour un nombre d’itérations toujours inférieur à celui qui est nécessaire à l’algorithme non guidé et d’autre part, pour un nombre d’itérations donné, la solution trouvée est meilleure (valeur de Iπ plus grande) que celle de l’algorithme AMC_non_Guidé.

Enfin, dans la région NON (m = L≥ 18), le comportement des deux algorithmes est totalement différent : l’algorithme AMC_non_Guidé n’est capable de retrouver l’hy-pothèse qu’avec un nombre d’itérations de l’ordre de 1200. A l’inverse, l’algorithme

AMC_Guidé retrouve toujours la solution cachée et ce, de plus en plus rapidement ; pour des valeurs m = L ≥ 20, la solution est retrouvée directement avec l’état initial. Ceci s’explique par le fait que, dans cette région, la matrice INC contient moins de valeurs égales à 1 ce qui améliore beaucoup leur significativité.

4.3 Conclusion

Le comportement de plusieurs variantes de l’algorithme Iπa été étudié sur différentes régions de la TP, dans le cas du test de couverture. Ce paradigme est intéressant car il propose un ensemble d’instances faciles et difficiles, satisfiables et non satisfiables, ce qui constitue un excellent jeu de données pour tester les performances des algorithmes. Dans la région OUI où les instances aléatoires sont faciles et satisfiables, l’algo-rithme trouve bien une solution complète tandis que dans la région NON, il identifie des solutions partielles (pour des instances aléatoires, il n’existe en effet pas de solution complète dans cette région). Plus les instances s’éloignent de la région de la TP, plus les solutions partielles sont petites et comme l’indice Iπ quantifie la taille des solutions, sa valeur décroît. Le saut brutal que l’on observe avec laθ-subsomption au niveau de la TP n’existe donc plus.

Des instances de problèmes contenant une solution cachée ont été utilisées pour observer les limites de l’algorithme et déterminer les variantes les plus performantes. Dans la région OUI qui contient de nombreuses autres solutions, l’algorithme retrouve facilement une solution complète. Dans la région NON, l’exploration de l’espace de re-cherche est rendue plus efficace lorsque l’algorithme est guidé par les informations de la matrice INC. Dans la région de la TP, il est nécessaire de parcourir l’espace de re-cherche de manière plus poussée pour trouver une solution ceci en raison de la difficulté des problèmes dans cette zone.

Ce travail propose une heuristique intéressante pour guider l’apprentissage de concepts et notamment dans les régions où les algorithmes d’apprentissage comme FOIL échouent. En effet, dans ces régions, les hypothèses candidates sont suffisam-ment spécialisées pour couvrir les exemples et rejeter la majorité des contre-exemples : l’algorithme s’arrête alors. Si l’on souhaite poursuivre la spécialisation de l’hypothèse, alors le choix du nouveau littéral se fera de manière aléatoire car les indices de couver-ture des littéraux candidats auront la même valeur. Dans ce contexte, l’indice Iπpourrait être utilisé pour définir une mesure de couverture qui tienne compte de la proximité de l’hypothèse courante avec les exemples et contre-exemples. De la sorte, il serait pos-sible de choisir les hypothèses candidates qui rejettent en priorité les contre-exemples

4.3. Conclusion

les plus proches des exemples (i.e. les near-misses). Cette approche rejoint, d’une ma-nière différente, celle qui est proposée par [Alphonse and Osmani, 2008].

De manière complémentaire, il devrait être également possible d’apprendre des dé-finitions "approximatives" de concepts en essayant de construire des clauses qui restent les plus similaires possible (en fait, les plus incluses possible) aux exemples, tout en maximisant la distance avec les contre-exemples. La clause ainsi produite ne serait évi-demment pas entièrement opérationnelle (dans le sens où l’unificatinon avec certains exemples peut échouer), mais dans des domaines comme la chimie où l’utilisateur sou-haite visualiser des structures (scaffold) les plus complètes possibles, cette démarche permettrait de construire des modèles pertinents pour une interaction homme-machine.