• Aucun résultat trouvé

2.2 Proposition d’une approche de clustering semi-supervisé et interactif de bases

2.2.5 Bilan et améliorations possibles

Nous avons proposé une approche de clustering semi-supervisé et interactif originale, qui repose sur une extension semi-supervisée de l’algorithme de clustering hiérarchique BIRCH. Elle repose sur des modifications locales de la structure hiérarchique guidées, à chaque itération interactive, par les retours de l’utilisateur. Ces modifications portent sur des divisions des feuilles existantes afin de s’adapter aux retours de l’utilisateur, et un re-clustering mené directement au niveau des nouvelles feuilles. Afin de répercuter au mieux au niveau de la solution de clustering les quelques retours fournis par l’utilisateur à chaque itération interactive, nous avons étudié diverses stratégies pour déduire des contraintes secondaires à partir des contraintes entre paires d’images calculées selon ces retours, et nous avons pu observer que celle qui donnait le meilleur compromis entre temps de calcul et performance12 tient compte à la fois de la distribution des données dans l’espace de représentation initial (celui des signatures visuelles de bas niveau sémantique), et des retours précédemment fournis par l’utilisateur.

Nous avons en outre proposé un protocole expérimental basé sur un agent utilisateur, qui nous permet de comparer équitablement, à partir d’une vérité-terrain figée, notre approche à d’autres méthodes. Nos expérimentations montrent que, selon ce protocole expérimental, notre approche produit des groupes d’images plus sémantiques que d’autres méthodes de la littérature. C’est-à-dire qu’ils correspondent mieux à la vérité-terrain annotée par – ou sous la supervision de – l’humain que les groupes formés avec du clustering non-supervisé, ou même que les groupes découverts avec d’autres approches semi-supervisées (notamment une variante de HMRF-kmeans [Basu 2004] que nous avons adaptée à notre contexte interactif). Une analyse quantitative des résultats est disponible en annexe E(article [Lai 2013b]) et dans [Lai 2013a].

Ces travaux nous ont néanmoins permis de mettre en évidence plusieurs pistes d’améliora-tion, parmi lesquelles les trois principales sont détaillées ci-après.

Une première piste qui mériterait d’être explorée est celle de l’apprentissage de distance [Yang 2006]. Ce type d’approches permet d’apprendre une distance (dans l’espace initial de représentation) en fonction des interactions de l’utilisateur. La distance ainsi apprise est donc a priori plus en adéquation avec les dissimilarités perçues par l’utilisateur que la distance Euclidienne que nous utilisons jusqu’à présent. Une telle distance pourrait être utilisée à de nombreuses occasions dans notre approche. Dans la fonction objective de l’algorithme de re-clustering, elle pourrait permettre de répercuter de manière plus globale dans la solution de clustering les effets localement induits par les contraintes entre paires de feuilles. En ce qui concerne l’espace de présentation des prototypes d’images à l’utilisateur (cf. Figure 2.3), nous pourrions substituer au plan 2D composé des deux premiers axes principaux (obtenus par ACP), actuellement utilisé, un espace de présentation obtenu par Multi Dimensional Scaling (MDS) calculé à partir de cette distance. Un autre exemple où une telle distance pourrait être utile est

11. Sur la foi de nos expérimentations, nous avons fixé les valeurs de ces paramètres à c = 10 et p = 10. 12. En termes d’adéquation entre la solution de clustering proposée par le système et celle de la vérité-terrain.

celui de la sélection des images à présenter à l’utilisateur, actuellement basée sur des mesures de distances intra-cluster et inter-cluster. Enfin, elle pourrait être utilisée pour caractériser les similarités entre de nouvelles images et les groupes d’images constitués interactivement, dans le cadre d’une application finale à la recherche d’images par le contenu (dans l’optique de retourner à l’utilisateur des images plus en adéquation avec ses attentes).

Le choix de la manière de mener l’apprentissage de distance n’est cependant pas évident a priori. S’il est bien sûr possible de le mettre en œuvre lors de la deuxième étape de l’algorithme de re-clustering des feuilles, à la manière de l’algorithme MPCK-Means présenté dans [Bilenko 2004], nous pouvons nous interroger sur la capacité d’une distance apprise globalement à capturer les subtilités des dissimilarités entre catégories perçues par l’utilisateur. Des réponses à ces questionnement ne pourront être apportées qu’au travers d’une étude fouillée de la littérature, suivie d’expérimentations pratiques.

Une deuxième piste d’amélioration concerne l’interaction avec l’utilisateur. Même si ses per-formances sont très satisfaisantes selon notre protocole expérimental, dans sa forme actuelle, notre approche ne gère pas réellement les éventuelles incohérences dans les retours donnés par l’utilisateur. Cela peut se justifier dans une certaine mesure étant données les applications visées, qui relèvent des humanités digitales où l’organisation des images souhaitée par les utili-sateurs (experts du domaine tels que des archivistes) suit généralement une typologie précise. Néanmoins, le cas d’un utilisateur dont les critères de catégorisation varieraient avec le temps se présente fréquemment dans la pratique, dès lors que l’on sort de ces applications, et mérite donc d’être abordé.

Les raisons possibles d’une évolution dans les critères de catégorisation de l’humain sont multiples. Elle peut par exemple provenir d’une évolution du contenu de la base, ou d’une inconsistance dans le comportement de l’utilisateur. Le cas de l’évolution du contenu de la base sera discuté dans les perspectives générales de ce chapitre (section 2.5). Ici, nous nous focalisons sur le cas où l’évolution provient d’un comportement inconsistant de l’utilisateur (par exemple, après avoir considéré pendant quelques itérations interactives que les éléphants étaient à ranger avec les chevaux car ce sont des animaux, il choisit finalement de les séparer en deux catégories distinctes). Dans la version actuelle de notre approche, lors de la phase de re-clustering, la violation de contraintes n’est pas interdite, elle est simplement pénalisée. Donc, dans ce type de cas, le système continuerait à fonctionner, mais risquerait d’engendrer des résultats qui ne satisfassent pas l’utilisateur (ici par exemple la solution de clustering pourrait comporter un cluster contenant – de manière non exhaustive – des éléphants et des chevaux, un cluster contenant des éléphants mais pas de chevaux, et un cluster contenant des chevaux, mais pas d’éléphant). Le problème est alors de supprimer de la liste des contraintes actives les contraintes must-link entre images de chevaux et d’éléphants précédemment intégrées dans le système, afin d’inciter au final le système à redéployer les images du premier cluster mêlant chevaux et éléphants vers les deux autres clusters.

Parmi les six stratégies de déduction/sélection des contraintes entre paires d’images à partir des retours de l’utilisateur que nous avons étudiées (voir section2.2.3.2), certaines reposent sur un oubli progressif des contraintes les plus anciennes (elles n’ont cependant pas été retenues dans notre contexte applicatif où l’on considère que la catégorisation souhaitée par l’utilisateur est figée). Ces stratégies d’oubli pourraient partiellement résoudre ce problème, mais poten-tiellement avec un délai assez long, vu que la totalité des clusters ne peut être présentée à l’utilisateur à chaque itération interactive. À noter que, du fait de leur caractère systématique, elles pourraient engendrer des effets de bord, comme par exemple des contraintes qui resteraient

valides mais seraient quand même oubliées. On peut donc envisager des stratégies d’oubli ciblé, qui pourraient être soumises à la validation de l’utilisateur, et qui ne concerneraient que les contraintes les plus anciennes dont la satisfaction entraînerait le plus de changements dans la structure arborescente, voire dans la solution de clustering proposée au final. La sélection de ces contraintes pourrait se faire automatiquement au niveau des contraintes entre images ou au niveau des contraintes entre feuilles. Les paires d’images ou de feuilles concernées seraient alors présentées à l’utilisateur, pour que celui-ci valide ou infirme ses retours précédents.

Afin de pouvoir mener des expérimentations avec des utilisateurs humains de divers horizons (experts ou simples utilisateurs), d’une manière qui soit la moins biaisée possible, nous sommes en train de développer une application web que nous souhaitons mettre à disposition du grand public. Ces expérimentations devraient nous permettre (entre autres) de choisir la meilleure stratégie d’oubli ciblé.

Passons maintenant à la troisième principale amélioration possible de ce travail, qui concerne la sélection des images à présenter à l’utilisateur lors de chaque itération interactive. L’idée est de présenter en priorité à l’utilisateur les images pour lesquelles une interaction de sa part aurait potentiellement le plus grand impact sur la solution de clustering. Tout comme pour la sélection des contraintes entre paires d’images à prendre en compte dans le processus de clustering semi-supervisé, l’idée sous-jacente est proche de celle de l’apprentissage actif [Cohn 1996,Cord 2008]. Dans le cas des rares travaux sur le clustering semi-supervisé d’images basé sur un apprentissage actif (si l’on exclut le cas du clustering flou), nous pouvons citer la stratégie introduite dans [Biswas 2012] et qui est basée sur la sélection des exemples dont un éventuel changement d’étiquette aurait le plus grand impact sur la fonction objective du clus-tering semi-supervisé. Dans notre cas, la fonction objective (cf. annexeB) pénalise la violation d’éventuelles contraintes entre feuilles CF , et non entre images directement. Ce qui rend difficile la transposition directe de ce genre d’approches dans notre cas, puisqu’il n’est pas trivial de quantifier de manière individuelle l’impact du changement d’étiquette d’une image donnée sur la fonction objective du re-clustering. Notre stratégie actuelle de sélection des images à présen-ter à l’utilisateur, basée sur l’étude de la contribution de chaque image à la compacité et à la séparabilité de son cluster d’appartenance courant (via la mesure interne SW ), est cependant d’un principe proche de celle utilisée dans [Biswas 2012].

Néanmoins, notre méthode de sélection des images à présenter à l’utilisateur, tout comme celle introduite dans [Biswas 2012], comporte un désavantage étant donnés les modes d’inter-action que nous avons choisi de mettre en place. En effet, puisqu’il nous faut choisir dès le début de chaque étape itérative l’ensemble des exemples à présenter à l’utilisateur lors de cette étape itérative, nous devons procéder à cette sélection « en bloc ». Il est donc a priori possible que deux images pour lesquelles une interaction avec l’utilisateur apporterait une information redondante soient sélectionnées au cours d’une même itération interactive. C’est pour éviter ce genre de cas qu’un critère de non-redondance a été introduit dans [Grira 2008] dans un contexte d’apprentissage actif pour le clustering semi-supervisé flou (difficilement transposable dans notre cas). Dans notre cas en revanche, nous pourrions tirer avantage des regroupements d’images intermédiaires (noyaux, voisinages, feuilles) pour introduire dans notre algorithme d’apprentissage actif un critère de non-redondance des images à présenter à l’utilisateur (par exemple en n’autorisant pas la sélection de plus de quelques images représentatives par voisinage ou par feuille).

d’images plus structurées (en l’occurrence de documents textuels) par clustering interactif. Nous reviendrons sur les travaux présentés ci-dessus à l’occasion, d’une part, d’une discussion plus globale sur ce chapitre (section2.4) et, d’autre part, de la présentation de leurs perspectives à plus long terme (section2.5).

2.3 Extraction d’invariants dans des documents textuels par