• Aucun résultat trouvé

J’ai choisi d’organiser le reste de ce mémoire autour des deux grands objectifs d’analyse d’image visés dans le cadre de nos travaux : la description d’images et la reconnaissance d’images. J’ai fait ce choix pour des raisons didactiques, mais aussi parce que, comme nous venons de le voir au travers de mon cheminement scientifique, les faits marquants liés à nos contributions dans ces deux objectifs sont relativement équilibrés (en termes notamment d’encadrement scientifique, de publications, d’activité contractuelle et de collaborations).

Le chapitre 2traite donc de la description d’images, tandis que le chapitre 3est consacré à la reconnaissance d’images. Dans chacun de ces deux chapitres, je commence par placer nos travaux dans leur contexte scientifique et applicatif, avant de présenter nos principales contributions. Ces contributions sont systématiquement discutées par rapport, d’une part, aux questions de recherche abordées dans ce manuscrit (cf. section1.3.3) et, d’autre part, vis-à-vis de la littérature. Ces chapitres se terminent par la présentation de nos principales perspec-tives de recherche, et par un récapitulatif des principaux faits marquants liés à nos contributions. Ce mémoire s’achève avec le chapitre 4 qui en dresse les conclusions générales et situe les principales perspectives de recherche évoquées au fil du manuscrit dans le cadre unificateur de l’exploitation interactive de collections d’images.

Ce manuscrit comporte cinq annexes, dont la dernière (annexeE) est composée d’un recueil de trois articles parus dans des revues internationales.

Contributions dans le domaine de la

description d’images

Description d’images de niveaux de structuration variables par

clustering interactif

Sommaire

2.1 Introduction . . . . 24 2.1.1 Extraction et caractérisation de performances de descripteurs visuels . . . 25 2.1.2 Pourquoi extraire des descripteurs par clustering interactif ? . . . . 27 2.1.3 Contenu et organisation du reste du chapitre . . . . 28 2.2 Proposition d’une approche de clustering semi-supervisé et interactif

de bases d’images tout-venant . . . . 30 2.2.1 Positionnement de l’étude . . . . 30 2.2.1.1 Objectif visé . . . . 30 2.2.1.2 Approches existantes . . . . 32 2.2.2 Aperçu de l’approche proposée . . . . 34 2.2.3 Principales contributions . . . . 35

2.2.3.1 Comparaison formelle et expérimentale de différentes méthodes de clustering non supervisé dans le cas d’images tout-venant . . 36 2.2.3.2 Proposition d’une approche de clustering semi-supervisé interactif 37 2.2.4 Protocoles/mesures proposés pour la caractérisation de performances. . . 39 2.2.5 Bilan et améliorations possibles . . . . 41 2.3 Extraction d’invariants dans des documents textuels par

cluste-ring interactif. . . . 45 2.3.1 Positionnement de l’étude . . . . 45 2.3.1.1 Objectif visé . . . . 45 2.3.1.2 Travaux existants connexes . . . . 46 2.3.2 Fil conducteur des questions abordées . . . . 47 2.3.3 Aperçu du système proposé . . . . 48 2.3.4 Principales originalités du système proposé . . . . 49 2.3.4.1 Raffinements interactifs des invariants . . . . 50 2.3.4.2 Discussion sur la généricité du système proposé. . . . 52 2.3.5 Bilan et applications visées . . . . 53 2.4 Discussion . . . . 56 2.5 Perspectives. . . . 60 2.6 Faits marquants liés à ces contributions . . . . 63 2.6.1 Synthèse des faits marquants . . . . 63 2.6.2 Encadrements en lien avec ces contributions . . . . 64

Tables

2.1 Faits marquants liés aux contributions présentées dans ce chapitre . . . . 63 Figures

2.1 Illustration du fonctionnement du moteur de recherche de Google Image . . . . . 31 2.2 Vue globale de l’approche de catégorisation interactive d’images naturelles . . . . 34 2.3 Interface permettant à l’humain d’interagir avec le système de catégorisation

in-teractive d’images naturelles. . . . 35 2.4 Vue globale du système d’extraction interactive d’invariants dans des documents

textuels . . . . 48 2.5 Interface générale permettant à l’humain d’interagir avec les invariants . . . . 50 2.6 Interface permettant à l’utilisateur de déclencher le regroupement spatial d’invariants 52

2.1 Introduction

Chaque image est composée d’un nombre potentiellement important de valeurs de pixels peu structurées (en comparaison avec des données texte par exemple). Notre objectif est ici d’extraire, à partir de ce contenu pixellaire éventuellement additionné d’informations du domaine, une représentation simplifiée qui permette de synthétiser ce contenu. Concrètement, il s’agit de calculer des descripteurs, plus synthétiques que le contenu initial, mais représentatifs de ce contenu.

Il convient ici de définir plus précisément l’usage que nous ferons dans la suite des termes « caractéristique », « descripteur » et « signature », souvent utilisés de manière indifférenciée dans la littérature :

– Une caractéristique (ou caractéristique visuelle) est un indice visuel extrait de l’image, souvent obtenu par un filtre ou une transformation mathématique appliquée localement ou globalement sur les pixels de l’image.

– Un descripteur vise également à décrire le contenu de l’image. Il peut être, selon les cas, composé uniquement de caractéristiques visuelles (on parle alors de « descripteur visuel »), ou comporter des caractéristiques de plus haut niveau sémantique associées à l’image (type, mots-clés, etc.). Comme expliqué en annexeA, les éléments du descripteur peuvent être organisés sous une forme vectorielle (descripteurs statistiques) ou bien séquentielle ou structurée (descripteurs structurels) ;

– Les signatures des images sont constituées de l’ensemble des descripteurs retenus au final pour décrire une image. Elles permettent de définir l’espace de représentation des images (vectoriel ou graphique). Une signature est en général associée à une mesure de similarité adaptée [Jolion 2001], qui permet de comparer différentes images dans l’espace de représentation. Une signature peut être statistique, structurelle, ou statistico-structurelle (c.-à-d. composée de descripteurs structurels ramenés directement ou indirectement dans un espace de représentation vectoriel, généralement dans une optique d’efficacité de l’analyse).

Selon les cas, les descripteurs pourront être retournés soit à un humain (expert du domaine d’application, chercheur en vision par ordinateur, ou un simple utilisateur du système), soit à la machine afin d’alimenter un processus ultérieur. Dans ce dernier cas de figure, les descrip-teurs seront typiquement réutilisés pour indexer les images en vue d’une recherche ultérieure [Smeulders 2000,Fournier 2001,Datta 2008], ou par un moteur de reconnaissance. Il arrive éga-lement qu’ils soient mis à profit par un moteur de visualisation/navigation par similarité dans les bases d’images [Ma 1999,Borth 2008,Jing 2012].

La destination de ces descripteurs conditionne en particulier leur niveau de structuration, et le niveau auquel on les extrait. Les descripteurs peuvent en effet être extraits au niveau d’une région de l’image, d’une image donnée ou au niveau plus global de la collection d’images. Au ni-veau de l’image ou de ses régions, on cherche le plus souvent des descripteurs visuels représentant le contenu de l’image, en général pour alimenter des processus ultérieurs d’indexation/recherche ou de reconnaissance. C’est l’objet de la section 2.1.1. Au niveau plus global de la collection d’images, on cherche des descripteurs qui permettent de représenter de manière synthétique le contenu souvent volumineux de la collection ; ces descripteurs pourront typiquement être utilisés par un moteur de visualisation/navigation par similarité dans les bases d’images. Une manière de décrire la collection d’images passe par une catégorisation des images de la collection ou de leurs éléments d’intérêt ; c’est l’objet de la section2.1.2.

2.1.1 Extraction et caractérisation de performances de descripteurs visuels On se place ici au niveau de l’image ou de ses régions, où l’on cherche le plus souvent des descripteurs visuels, en général pour alimenter des processus ultérieurs d’indexation/recherche ou de reconnaissance d’images. Les nombreux descripteurs visuels proposés dans la littéra-ture sont traditionnellement regroupés selon des taxinomies basées sur leur nalittéra-ture (p. ex. statistique et/ou structurelle), sur la nature de ce qu’ils cherchent à décrire (p. ex. couleur, forme, texture), sur la manière dont ils sont extraits depuis l’image (localement, globalement, « spatialement1 ») ou, le cas échéant, selon leurs bonnes propriétés et éventuellement leurs invariances. Je les amène ici d’une manière un peu plus originale, en lien avec le fil conduc-teur de mes travaux, à savoir en fonction de l’information dont on dispose a priori sur les images. Dès lors que l’on dispose a priori d’informations concernant le(s) type(s) des images à décrire, ou des objets/motifs présents dans ces images, il est possible d’extraire des descripteurs tirant parti de cette information.

En présence d’un type donné d’images structurées2, il peut être avantageux d’utiliser im-plicitement ou exim-plicitement les informations sur leur structure pour le calcul de descripteurs dédiés à ce type d’images (le cas échéant au travers d’un apprentissage). Je parle dans ce cas de « descripteurs de grain fin », que l’on retrouve très fréquemment dans des contextes appli-catifs tels que la biométrie [Turk 1991], l’imagerie médicale [Cachier 2001] ou encore l’analyse d’images de documents [Bunke 2011]. C’est l’objet de certains des travaux réalisés dans ma thèse [Visani 2005a] et, peu après mon recrutement au L3i, dans le cadre d’un stage de M2 que j’ai co-encadré et qui a donné lieu par la suite à plusieurs publications. Ces travaux portent res-pectivement sur la proposition de descripteurs statistiques pour des visages, et d’une signature statistico-structurelle pour des symboles graphiques (les visages ou les symboles graphiques

1. Souvent au travers d’un graphe des relations spatiales entre les objets visuels composant l’image. 2. C-à-d. lorsque l’on dispose implicitement ou explicitement d’informations du domaine sur la présence, la

étant préalablement détectés/localisés dans l’image). Le lecteur intéressé pourra se référer à l’annexe A pour plus de détails concernant ces travaux, ayant donné lieu à des contributions à la fois méthodologiques et applicatives. S’ils s’avèrent particulièrement efficaces dès lors qu’on les extrait depuis le type d’images pour lequel ils ont été conçus, ce type de descripteurs dédiés ne sauraient néanmoins décrire efficacement des images de contenu moins contrôlé. Autrement dit, ils souffrent d’une importante non-généricité.

En présence d’images peu structurées et/ou appartenant à des types hétérogènes, il reste possible de tirer parti de l’information concernant le type des images (ou objets/motifs dans ces images), en entraînant de manière supervisée des outils d’extraction de descrip-teurs. La supervision confère aux descripteurs ainsi appris un certain caractère sémantique, ce qui explique en partie leurs excellentes performances en pratique. Les descripteurs ex-traits par un apprentissage profond – en plein essor – sont réputés parmi les plus efficaces [Goh 2013,Iandola 2014,Krause 2014,Donahue 2014], mais requièrent le plus souvent de très nombreux exemples. Plus généralement, l’entraînement de tels descripteurs est souvent guidé par un processus de détection et/ou de reconnaissance d’objets (parfois basée sur la détec-tion/reconnaissance de certaines de leurs parties). Même si, en théorie, certains de ces descrip-teurs peuvent être utilisés pour représenter une grande variété de contenus, dans la pratique il est souvent nécessaire que les bases d’apprentissage et de test soient suffisamment similaires. Pour illustrer cette assertion, on peut citer les travaux menés dans l’équipe LEAR de l’IN-RIA [Paulin 2014] qui montrent une baisse sensible des performances des descripteurs DeCAF [Donahue 2014] lorsqu’ils sont appris sur les images du challenge ImageNet 2012 et utilisés pour décrire le contenu d’ImageNet 2010, et ce, malgré le fort recouvrement entre les deux bases.

Dans les contextes applicatifs que je considère dans la suite de ce chapitre, nous ne disposons a priori d’aucune information concernant les catégories des images à décrire. Donc, nous ne considérerons pas ces types de descripteurs.

En l’absence d’information a priori concernant le type des images ou des objets qu’ils contiennent, il est courant d’utiliser des descripteurs visuels génériques (généralement statis-tiques) capables de décrire au mieux les variétés de formes, textures et couleurs présentes dans la nature (comme par exemple l’un des nombreux descripteurs décrivant l’image localement [Li 2008] largement adoptés par la communauté3, tels que SIFT [Lowe 2004] ou l’histogramme de gradient orienté (HoG) [Dalal 2005]), ou encore des descripteurs basés sur un apprentissage non-supervisé [Ranzato 2007].

Ces descripteurs sont le plus souvent d’un niveau sémantique trop faible pour permettre à la machine de caractériser précisément le contenu de l’image en adéquation avec les concepts de plus haut niveau sémantique perçus par un humain. On peut citer pour appuyer ce propos l’initiative menée par des chercheurs du MIT dans un contexte applicatif de détection d’ob-jets dans des images [Vondrick 2013] : partant du constat que le système visuel humain nous permet d’appréhender très efficacement le contenu d’une image, ils se sont demandés comment les humains se débrouilleraient si, au lieu de visualiser la totalité des pixels de l’image, ils n’en visualisaient que ce qu’en perçoivent généralement les machines, à savoir leur signature. Ils ont donc pré-traité un ensemble d’images, en ont extrait des signatures basées sur HoG, et ont transformé ces signatures en une représentation visuelle susceptible d’être appréhendée facile-ment par un humain. Leurs conclusions montrent que les humains commettent de nombreuses erreurs de détection sur la foi des images ainsi constituées, ces erreurs rejoignant dans leur

grande majorité les erreurs commises par la machine. Il arrive par exemple que la signature d’une région de l’image correspondant à des vaguelettes dans l’eau ressemble à s’y méprendre à une voiture, trompant à la fois l’humain et la machine.

En raison de la très grande variété des contenus possibles et vu le relativement faible pouvoir expressif de ces descripteurs, des signatures volumineuses sont (dans l’immense majorité des cas) requises pour décrire les images. Et ce, malgré les efforts entrepris pour en réduire la taille : réduction de dimension [Van der Maaten 2009], sélection de carac-téristiques [Jain 1997], discrétisation des descripteurs locaux par des approches basées sur des sacs/chaînes de mots visuels [Sivic 2003, Ros 2009, Perronnin 2010, Avila 2013], etc. Cela peut poser un certain nombre de difficultés dans les traitements ultérieurs qui en sont faits. Derrière cette brève taxinomie de descripteurs que je viens de donner en fonction de l’information dont on dispose a priori concernant les types d’images à décrire, se cache en réalité un foisonnement de descripteurs visuels plus ou moins redondants. Cette redondance rend difficile le choix a priori de la signature la plus adaptée à un problème donné. Souvent, les chercheurs tendent donc à sélectionner les descripteurs constituant la signature à utiliser dans leur cas à l’aide d’une comparaison expérimentale de leurs performances [Deselaers 2008]. Mais, les conclusions de ces études diffèrent souvent selon le processus appliqué en aval de l’extraction de la signature, la base d’images considérée, etc. Au final, de nombreux auteurs choisissent d’appliquer une sélection automatique des caractéristiques ou des descripteurs composant la signature [Jain 1997]. Dans [Visani 2011b], nous avons proposé un protocole permettant de caractériser de manière explicite les performances d’un ensemble de descripteurs. L’objectif visé au final est de pouvoir sélectionner, pour une collection d’images donnée et sur la base de cette étude, une signature (composée éventuellement de plusieurs descripteurs) présentant de bonnes propriétés4.

À l’issue de cette brève présentation des descripteurs visuels, nous allons introduire dans la section suivante le cœur du sujet du présent chapitre, à savoir la description d’images par clustering interactif.

2.1.2 Pourquoi extraire des descripteurs par clustering interactif ?

La question posée dans le titre de cette section est en fait double : « Pourquoi extraire des descripteurs par catégorisation, et plus spécifiquement par clustering ? » d’une part, et « Pourquoi le faire de manière interactive ? » d’autre part.

Tâchons d’abord de répondre à la première question. Nous nous plaçons ici dans le contexte où l’on ne dispose d’aucune information a priori concernant le type des images ou des objets représentés dans la collection d’images à décrire. Dans ce contexte, on utilise généralement des signatures visuelles basées uniquement sur des descripteurs génériques (voir section précédente) pour décrire individuellement chacune des images. Dès lors qu’on recherche une représentation synthétique non plus des images mais de la base d’images, il peut être utile de travailler à un niveau plus global, en cherchant des similarités entre les images de la 4. Ces bonnes propriétés concernent l’unicité, le pouvoir discriminant et la robustesse vis-à-vis du bruit de chaque descripteur considéré indépendamment, ainsi que la complémentarité des descripteurs composant la signature. Elles sont évaluées à l’aide de mesures d’évaluation qualitatives et quantitatives que nous avons proposées, paramétrables par la mesure de similarité ou de dissimilarité la mieux adaptée à chaque descripteur.

base (ou certains des éléments extraits depuis ces images) ; l’idée à terme est d’alimenter un moteur de visualisation/navigation par similarité dans les bases d’images. Lorsque les bases d’images sont trop volumineuses pour que l’humain puisse en avoir rapidement un aperçu, une représentation naturelle passe par des groupes d’images similaires (le cas échéant, seules certaines images représentatives de chacun des groupes peuvent être présentées à l’humain). C’est dans cette optique que nous avons choisi d’extraire des descripteurs par catégorisation, et plus spécifiquement par clustering, puisque nous ne disposons pas a priori d’information sur les catégories d’images dans la collection à décrire.

La deuxième question est : « Pourquoi le faire de manière interactive ? ». Vu les applications que nous visons au final, nous souhaitons obtenir à l’issue du clustering des groupes d’images qui soient similaires au sens de certains critères humains. Mais, comme souligné ci-avant, les signatures visuelles génériques sur lesquelles nous devrons nous baser pour mener à bien le clustering sont de très bas niveau sémantique, et il y a donc peu de chances qu’ils permettent de découvrir des catégories qui satisfassent l’humain, comme nous le détaillerons ci-après.

En fait, à l’heure actuelle, seul un humain est capable de maîtriser le niveau de sémantique requis pour intégrer les éléments de contexte permettant de lever les ambiguïtés dans l’analyse du contenu de ces images. Ce fait est illustré par l’existence de nombreuses recherches basées sur l’utilisation de connaissances humaines [Maillot 2008,Chuan 2011,Depeursinge 2014]. Dans ces travaux, c’est en effet l’humain, souvent expert (par exemple un médecin dans le cas d’images médicales [Depeursinge 2014]), qui fournit les connaissances qui sont ensuite formalisées (typi-quement sous la forme d’ontologies), utilisées in fine pour l’analyse d’images.

Dans notre contexte où nous ne disposons d’aucune connaissance formalisée de manière explicite sur les collections d’images à décrire, nous ne pouvons utiliser le type d’approches citées ci-dessus. Nous avons donc choisi d’intégrer l’humain dans le processus de cluste-ring de manière à ce qu’il fournisse incrémentalement une information partielle concernant la pertinence des clusters, information qui est utilisée par le système pour corriger itérativement ces derniers. Nous nous focalisons donc ici sur une tâche de clustering interactif d’images ou de motifs extraits des images, qui nous permet d’obtenir une organisation de la collec-tion en groupes qui soient plus conformes aux concepts perçus par l’utilisateur dans la colleccollec-tion. L’information extraite du clustering peut être agencée sous la forme d’un descripteur. Selon la méthode de clustering considérée, le descripteur obtenu sera de nature statistique (vectorielle) ou structurelle (le plus souvent de forme graphique ou arborescente). Comme mentionné ci-dessus, ce descripteur pourra être utilisé (le cas échéant conjointement avec des descripteurs visuels) pour permettre à l’humain d’avoir un aperçu rapide du contenu de la collection d’images, ou d’y naviguer intuitivement. Ce qui n’empêche pas qu’il pourra en outre être mis à profit par des processus d’indexation, de recherche ou de reconnaissance d’images.

2.1.3 Contenu et organisation du reste du chapitre

La suite de ce chapitre est dédiée à la description de collections d’images de niveaux de structuration divers.

La section 2.2s’intéresse à l’organisation de collections d’images naturelles pour lesquelles on ne dispose d’aucune information du domaine (en particulier concernant leur éventuelle structuration). Il s’agit d’être capable de décrire la collection au travers de catégories qui font

sens pour un humain.

La section 2.3 est focalisée sur la description de collections d’images plus structurées, à savoir des collections de documents textuels anciens. En contrepartie de cette structuration, on ne dispose d’aucune information a priori concernant les scripts ou les langages utilisés. On cherche à décrire ces documents au travers de la découverte de motifs (« invariants ») revenant fréquemment dans les images et d’un niveau sémantique suffisant pour être réutili-sés par un expert humain souhaitant naviguer, ou rechercher de l’information, dans la collection. Ce chapitre se poursuit avec la section 2.4, qui propose une discussion autour des avancées réalisées grâce à nos travaux. Cette discussion met en perspective ces avancées avec le chemin qu’il nous reste à parcourir au regard des questions de recherche abordées, et le cas échéant avec les tendances qui se sont dégagées entre-temps dans la communauté scientifique pour s’attaquer à ces questions.