• Aucun résultat trouvé

6.2.1 Conceptualisation et formalisation des connaissances expertes . . . 86

6.2.2 Projection des données dans l’ABox de l’ontologie 89

6.2.3 Interprétation sémantique : Inférence du type des instances . . . 91

6.2.4 Génération automatisée des contraintes à partir des données étiquetées par l’ontologie . . . 93

6.2.5 Clustering guidé par contraintes . . . 93

6.2.6 Capitalisation des résultats et propagation de l’éti- quetage sémantique . . . 96

6.3 Mise en oeuvre . . . . 96

6.3.1 Données : Images LANDSAT . . . 97

6.3.3 Ontologie du domaine pour les images d’obser- vation de la Terre . . . 102 6.4 Expérimentations . . . 107 6.4.1 Protocole expérimental. . . 107 6.4.2 Classifications de référence . . . 107 6.4.3 Résultats . . . 108 6.5 Discussions . . . 113 6.6 Valorisation scientifique. . . 113

"The true sign of intelligence is not knowledge but

imagination"

, Albert Einstein

6.1. Introduction et motivations 83

6.1

Introduction et motivations

Le chapitre 5 a présenté les principales approches retrouvées dans la littérature avec pour objectif d’exploiter des connaissances pour classifier et/ou interpréter les objets d’intérêt d’une image.

Nous avons ainsi vu que deux paradigmes se dégagent naturellement dès lors qu’il s’agit de classifier un ensemble de données non étiquetées en présence de connaissances du domaine.

Le premier paradigme s’appuie sur une modélisation formelle des con- naissancespour pouvoir ensuite appliquer à ces connaissances des méca- nismes de raisonnement, et en particulier de déduction.

Cette manière de voir les choses s’avère très efficace quand les connais- sances expertes sont complètes et permettent d’attribuer une sémantique précise à chaque objet de l’image.

Pour ce faire, il est nécessaire non seulement de faire un choix sur la manière de modéliser le domaine en en décrivant dans un premier temps les concepts les plus généraux, mais aussi en faisant en sorte de définir les concepts les plus aboutis à partir de ces concepts généraux, et ce de manière exhaustive.

Il est cependant difficilement possible de disposer dans une ontologie, d’une couverture complète des concepts raffinés permettant de fournir les conditions nécessaires et suffisantes pour que tout individu (ici un pixel ou un segment de l’image) appartienne en extension à un concept en particu- lier.

En effet, l’acquisition et la formalisation des connaissances sont connues pour être des tâches particulièrement complexes dans le contexte d’appli- cations réelles. En dépit des progrès réalisés dans la mise à disposition de méthodes et d’outils en ingénierie des connaissances, ces tâches nécessitent de lourds investissements en temps et en expertise.

Il arrive donc fréquemment qu’une ontologie ne fournisse des concepts dits définis1 que pour une portion du domaine considéré, en fonction de

l’état des connaissances sur le domaine ou bien des besoins des experts modélisateurs.

Ainsi, pour un domaine donné, les efforts de modélisation et de formali- sation aboutiront la plupart du temps à une ontologie où, certains concepts dit primitifs2 ne seront pas raffinés par des concepts plus précis. Et où, les

concepts définis n’engloberont pas tous les cas de figure de l’apparition de leurs instances.

Prenons l’exemple du domaine de la télédétection, les experts auront plus de facilité à décrire des concepts, comme l’eau et la végétation, que

1. Un concept défini possède une à plusieurs conditions dites nécessaires et suffisantes 2. Un concept primitif possède une à plusieurs conditions dites nécessaires, mais qui ne suffisent cependant pas à faire appartenir les individus satisfaisant ces conditions au concept considéré

d’autres concepts plus complexes (et hétérogènes) à l’exemple des bâti- ments. De plus, une image satellite est la transcription de valeurs numé- riques qui sont sujettes à variation en fonction des caractéristiques du cap- teur ayant servi à l’acquisition, des conditions d’acquisition elles mêmes ou bien des scènes étudiées. Des processus de calibration permettent de nor- maliser les images pour un capteur exploité et donc de s’affranchir d’une partie de ces variations. Cependant, la définition d’un concept comme l’eau reste dépendante de ces différentes considérations.

Ces difficultés n’enlèvent en rien l’intérêt de l’utilisation d’une ontolo- gie en tant que support de connaissances formalisées. Les avantages sont en effet multiples (section5.4).

Une ontologie apporte de la modularité en séparant les traitements des connaissances. Les langages de formalisation offrent des prédicats de mo- délisation qui permettent de raccrocher des concepts de haut niveau à des descripteurs de bas niveau, tout en contextualisant les connaissances, afin de réduire le fossé sémantique. Le raisonnement permet d’étiqueter les ins- tances sans l’utilisation d’exemples, ce qui lui procure un avantage consi- dérable sur les approches à base d’apprentissage.

Enfin, l’adoption de l’hypothèse du monde ouvert permet d’éviter les erreurs d’étiquetage. Le monde ouvert intègre parfaitement la notion d’in- complétude des connaissances. Les informations absentes ne sont non pas considérées comme fausses mais comme inconnues.

Le deuxième paradigme fait une toute autre projection sur les connais- sances. L’objectif du clustering semi-supervisé est alors d’ajouter des con- naissances a priori, aux données traitées soit sous forme d’instances étique- tées, soit sous forme de contraintes, pour améliorer le processus d’appren- tissage et guider le clustering dans l’exploration des solutions. Ce modèle s’appuie essentiellement sur des mécanismes inductifs, et permet d’obte- nir des résultats satisfaisants en particulier pour le traitement de données complexes et hétérogènes à l’exemple d’images.

Cependant, comme nous avons pu le constater, ce processus demande une intervention manuelle et préalable de l’expert pour définir les contraintes, et cela sur chaque jeu de données. Une autre limitation réside dans la perte de la sémantique des classes et la non capitalisation des résultats pour leur exploitation dans l’analyse d’autres jeux de données. Les contraintes sont définies manuellement pour chaque jeu de données et l’étiquette doit être donnée par l’expert en analysant les clusters obtenus.

Pour résumer, les approches semi-supervisées ne sont pas modulaires, les connaissances ne sont pas séparées des algorithmes de classification, ce qui impose le déploiement de nouvelles chaînes de traitement chaque fois que les concepts d’intérêt de l’expert et/ou les jeux de données à analyser changent.

Pour faire face à ces limitations, nous proposons l’utilisation mutuelle de l’ontologie comme référentiel des connaissances et du clustering semi- supervisé pour enrichir la classification, tout en introduisant une interpré- tation sémantique des clusters. L’idée est d’élaborer une approche hybride qui va s’appuyer sur le raisonnement à base des logiques de description afin

6.2. Vue globale de l’approche 85