• Aucun résultat trouvé

La classification semi-supervisée

CHAPITRE 2 LE TRAITEMENT D’IMAGES SATELLITAIRES

2.5 La classification du contenu des images

2.5.3 La classification semi-supervisée

Il nous reste à expliquer ce que sont les méthodes de classification semi-supervisées. Comme le terme le laisse présager, ces techniques sont guidées par un intervenant humain qui est en mesure de choisir la prochaine étape de traitement la plus judicieuse à utiliser ou de donner une rétroaction par rapport à la classification retournée qui est de type « C’est ça ou ce n’est pas ça ».

Qu’il s’agisse de la sélection de nouvelles variables, de l’identification des points de départ probants pour l’agrégation ou encore du choix d’une classe qui contienne ce qui est recherché et de la cibler pour des traitements supplémentaires, il en demeure que le choix est réalisé par une personne, ou une structure algorithmique conditionnelle pertinente, qui guide la suite des actions de classification.

Un exemple de ce que nous voulons dire est de mise pour permettre de bien saisir ce que ce type de méthodes permet de faire et surtout de faire ressortir comment nous devons conceptualiser le problème ainsi que la structure de résolution qui est requise par ces techniques. Prenons un cas typique qui revient souvent dans un contexte de gestion de catastrophe naturelle, une inondation. Dans cette situation, nous comprenons que ce qui est d’intérêt premier est d’une part les limites de débordement d’un cours ou d’une étendue d’eau et d’autre part les portions du réseau routier et des bâtiments qui ont été affectés par la crue. Nous voyons ici que ce qui a trait à la végétation et aux portions du territoire sous étude qui sont reliées à l’agriculture est d’intérêt secondaire au plus.

La question prépondérante est donc, « Comment isoler les portions de l’image où nous retrouvons de l’eau, des routes et des bâtiments du reste de l’image? », ce qui n’est pas nécessairement une tâche simple. Pour ce faire, nous pouvons procéder de différentes manières. Nous n’en donnerons qu’une, mais il ne faut pas croire que ce que nous proposons ici est la seule ou même de loin la meilleure manière de procéder.

Nous connaissons donc certaines choses qui nous permettent de réduire la complexité de l’exercice. En un premier temps, si nous pouvons éliminer tout ce qui est relié aux territoires agricoles et à la végétation, nous aurons réduit considérablement la diversité des phénomènes qu’il nous restera à classifier. Ceci est une considération importante qui est reliée à la taille considérable qu’ont les images satellitaires, surtout celles des dernières générations de capteurs à très haute résolution, qui dans bien des cas contiennent tellement d’informations, du point de vue de l’analyse de la base de données qu’elles forment, que le temps de traitement devient rapidement prohibitif. En excluant certaines zones d’une image, par des traitements initiaux simples, il est donc possible par la suite d’envisager l’utilisation de variables et d’algorithmes qui sont plus complexes à calculer et à utiliser tout en conservant un temps de traitement qui soit raisonnable.

Un analyste pourrait donc utiliser des variables du premier niveau, comme l’indice NDVI par exemple, pour effectuer une classification initiale du contenu de l’image ayant pour but

d’isoler tout ce qui se rapporte à la végétation. Une fois que la classification obtenue est jugée satisfaisante, il serait en mesure de concentrer ses efforts d’analyse sur des portions restreintes de l’image originale, réduisant de cette manière la taille du problème d’une part et les ambiguïtés potentielles qui auraient pu survenir lors de la reclassification si toutes les données étaient utilisées.

Comme nous l’avons mentionné, les phénomènes représentés par une image forment des nuages de points plus ou moins compacts dans l’espace des descripteurs. Lorsque nous nous intéressons à « découvrir » ces nuages, pour être en mesure d’établir leurs significations conceptuelles, il est avantageux de pouvoir concentrer l’analyse sur une portion restreinte de cet espace, ce qui permet une analyse plus pointue de ce qui se trouve dans une nuée donnée.

Donc, nous cherchons à éliminer les informations superflues pour obtenir un échantillonnage restreint qui permettra plausiblement d’obtenir des classes moins ambiguës au sein desquelles il sera probablement plus facile d’isoler les véritables objets d’intérêt. Ceci permet aussi de définir des combinaisons de variables de traitement spécifiques pour différentes classes sans qu’il ne soit nécessaire de trouver des combinaisons de variables qui permettent de séparer tous les objets en une seule passe. Ceci est un objectif louable lorsque nous considérons que plus le vecteur de description est considérable, plus le temps de traitement est long et moins il est probable que la représentation utilisée ne soit valide du point de vue des mesures de distance usuelles qui sont utilisées en classification pour établir des relations de proximité entre les échantillons.

Certains auteurs se penchent sur cette question à l’heure actuelle parmi lesquels les travaux de (Beyer et al., 1999), portant sur la validité du concept de distance en fonction du nombre de variables utilisées, font bien ressortir que dans plusieurs circonstances l’utilisation d’un trop grand nombre de variables empêche la découverte de la structure interne d’un jeu d’échantillons à classer. De leurs travaux ressort la constatation que dans plusieurs contextes il est préférable de ne pas dépasser 20 variables descriptives pour éviter de tomber dans une situation où la mesure de distance perd sa signification. Ceci n’est pas toujours le cas, bien

sûr, mais il est important d’être conscient de cette possibilité pour être en mesure de reconnaître les situations où nous sommes arrivés à la limite de probité des mesures de distance. Dans ces situations il est impératif de changer de méthode d’encodage de l’information plutôt que de ne faire qu’ajouter d’autres variables en espérant que cela résorbera l’ambiguïté décelée.

Il est intéressant de remarquer que ceci vient rejoindre le précepte du rasoir d’Ockham qui met de l’avant que lorsque nous cherchons à expliquer ou à décrire quelque chose, il est préférable d’utiliser la représentation la plus simple et d’éviter de multiplier les descriptions au-delà de ce qui est réellement utile dans un contexte donné.

Somme toute, bien que l’objectif de cette étape du traitement est d’automatiser la classification le plus possible, nous voyons qu’il est incontournable d’avoir un intervenant humain qui soit impliqué par le développement et la mise en œuvre d’une procédure de classification, et ce, surtout dans un contexte de télédétection relié à la gestion des ressources mises en cause lors d’une catastrophe majeure. Le choix judicieux d’algorithmes et d’enchainements de traitements permet de réduire le temps d’analyse, mais ne peut être entièrement automatique vu la grande diversité de formats d’images et de type de phénomènes d’intérêt qui sont susceptibles d’être impliqués dans ces analyses.

Le lecteur averti aura remarqué que les trois familles de techniques que nous venons d’exposer sont configurées par un intervenant humain. Pour que nous puissions utiliser la classification supervisée, il faut nécessairement avoir d’emblée des données étiquetées. Ceci suppose donc qu’il y ait une phase initiale d’analyse des données qui permettrait par la suite d’établir le modèle ou les équations qui rendront possible la classification du reste des échantillons à traiter. Lorsque nous considérons la classification non supervisée, nous savons que cette étape initiale n’est pas forcément requise, par contre, il est nécessaire d’interpréter les résultats pour pouvoir définir ce qui est décrit par chacune des classes découvertes ainsi que sa pertinence par rapport au problème posé. Il y a donc une étape qui suit l’utilisation

d’un algorithme donné qui doit être réalisé par un intervenant humain pour établir la composante conceptuelle associée à une classe donnée.

La place de l’intervenant est plus évidente lorsque nous parlons de la classification semi- supervisée. Comme nous pouvons nous y attendre en entendant le terme, il y une boucle de rétroaction entre le, ou les, algorithme(s) utilisé(s) et la personne qui guide l’analyse. On parle souvent de renforcement de pertinence, en anglais on utilise l’expression relevance feedback. L’idée est de donner à l’algorithme des exemples de ce que nous voulons et de ce que nous ne voulons pas. Puis, après un premier traitement, de raffiner la classification en excluant des éléments non pertinents ou en forçant l’inclusion d’objets ayant été exclus, mais qui auraient dû être acceptés et ajoutés à la base de données utilisée par les itérations ultérieures de la classification.

Des outils de recherche de contenu de ce type existent déjà dans les domaines muséologiques, du design et du multimédia qui permettent entre autres d’effectuer des recherches par thème ou par exemple. En télédétection et en analyse d’images satellitaires, nous retrouvons quelques exemples de cette approche d’analyse mis de l’avant dans (Costache, Maître et Datcu, 2007), et de la plateforme « Plato », qui est un prototype de développement de type preuve de concept utilisant certaines des notions mises de l’avant dans cet article, qui a été développée à Télécom ParisTech en partenariat avec le DLR et le CNES. Cette plateforme permet d’explorer et d’effectuer des recherches dans des bases de données diverses en utilisant le concept de la boucle de rétroaction pour raffiner les résultats de classification. Pour voir une démonstration du concept, on peut consulter la page internet de la chercheure Marine Campedel de Télécom ParisTech 15.

Peu importe la méthode qui est utilisée pour classifier le contenu d’une image, le résultat de l’analyse est une combinaison de variables et de modèles de classification qui permet de séparer les échantillons en classes d’appartenances mutuellement exclusives. Dans le meilleur cas plausible, il n’y a qu’une combinaison de variables et de modèles qui permet de

traiter toute une image et d’obtenir la classification de l’usage du territoire désirée d’un seul coup. Par contre, comme nous le savons tous, il est rare que nous ayons à faire avec le meilleur des cas. Alors, la question se pose à savoir quelle structure de représentation il faudrait utiliser pour permettre de traiter tous les cas allant du meilleur au pire, et ce le plus efficacement possible?