Aperçu général sur la fusion de données - Représentation à base de modèles sémantiques de forme

4.2 Représentation à base de modèles sémantiques de forme

5.1.1 Aperçu général sur la fusion de données

5.2 Décision et classification . . . 120

5.2.1 Classification à base des k-plus proches voisins . . . 121 5.2.2 Classification bayésienne naïve . . . 121

5.3 Récapitulatif des scénarios d’identification . . . 122

5.3.1 Scénario 1 : Intégration de la structuration sémantique dans un schéma d’identification typique . . . 122 5.3.2 Scénario 2 : Modèles sémantiques complémentaires et classifica-

L

’OBJECTIFde la thèse est de concevoir et de construire un système d’identification des espèces de plantes à base de feuilles qui permet de relever certains défis in- hérents à la morphologie des feuilles à savoir l’éventuelle variation intra-espèces vs. la similarité inter-espèces.

L’idée de base est d’intégrer et d’exploiter les concepts botaniques “arrangement”, “lobation” et “partition” au niveau du processus classique d’identification d’espèces.

Pour ce faire, nous proposons une démarche à trois étapes (cf. Figure 5.1) :

FIGURE5.1: Schéma global de notre démarche d’identification des espèces de feuilles.

La première étape représente la première contribution de la thèse. Elle a été détaillée dans le Chapitre 3). Cette étape consiste à établir une structuration sémantique, ou plus particulièrement, la catégorisation et la partition des images de feuilles à partir des connaissances botaniques considérées.

La deuxième étape de notre démarche est la représentation des feuilles. Elle a été dé- crite dans le Chapitre 4. Dans cette étape, notre contribution se situe à deux niveaux. — D’une part, les représentations foliaires proposées dans cette thèse sont définies de

manière à refléter la composition et la forme générale (i.e, arrangement et lobation ) des feuilles telles qu’elles sont définies par les botanistes. La composition se manifeste par les représentations locales à base de parties sémantiques. Quant à la forme géné- rale, outre qu’elle a permis la définition de la manière avec laquelle les feuilles sont partitionnées, elle a été exploitée pour définir des représentations optimales par ca- tégories. Ceci parait dans le choix des combinaisons de descripteurs génériques ainsi que des paramètres de modèles en fonction des catégories sémantiques de la feuille. — D’autre part, nous avons conçu deux types de modèles spécifiques de forme définis

sur la base des connaissances botaniques : un modèle polygonal défini à partir des pa- ramètres morphologiques botaniques et des modèles statistiques définis chacun sur la base d’un segment associé à une partie sémantique. Cependant, afin d’avoir une représentation complète de la feuille, nous avons ajouter aussi des descripteurs géné- riques de forme interne et de texture afin de décrire la nervation et la micro-nervure. A l’issue de cette étape, nous disposons d’une liste de vecteurs signatures de l’image de nature différentes (i.e, descripteurs/modèles qui peuvent être calculées sur différentes parties sémantiques).

A ce stade se pose la question sur la manière avec laquelle ces signatures seront as- semblées pour identifier l’espèce de la feuille qu’elles représentent. Cette opération correspond à la dernière étape de prise de décision quant à l’appartenance d’une image re- quête à une espèce (cf. Figure5.1).

Cette étape qui fait l’objet du présent chapitre, comportent deux niveaux :

— Le premier niveau concerne la fusion de requêtes partielles à base de parties ou à base de descripteurs.

— Le deuxième niveau concerne l’étape de classification dont laquelle l’image requête est attribuée à l’espèce majoritaire qui lui correspond.

Le présent chapitre comportent trois sections : la première section porte sur les mé- thodes de fusion de données. Un aperçu des principales stratégies de fusion existantes dans la littérature est tout d’abord présenté. Ceci nous permet de choisir par la suite les techniques de fusion appropriées à notre démarche, notamment en terme de la fusion des requêtes partielles à base de parties sémantiques. La deuxième section décrit brièvement les méthodes de classification utilisées. Enfin, nous récapitulons, dans la troisième section, les différentes configurations possibles en deux principaux scénarios d’identification. Ces deux scénarios diffèrent selon le type des représentations utilisées : soit des descripteurs génériques ou bien des modèles de forme, dont chacun nécessite une stratégie de classification particulière. Plus spécifiquement, les représentations à base de descripteurs sont suivies par une mesure de similarité image à image. Quant aux représentations à base de modèles, l’image requête est uniquement comparée aux représentants d’es- pèces définis chacun à partir des observations associées à cette espèce dans l’ensemble d’apprentissage.

5.1 Fusion des requêtes partielles

5.1.1 Aperçu général sur la fusion de données

La fusion de données est un domaine de recherche qui s’intéresse à répondre à des problèmes de multiplication des informations qui soient généralement hétérogènes ou issues de sources différentes et que chaque information seule est insuffisante ou porte des imperfections. La fusion de données cherche à combiner ces informations, dans le but d’améliorer la compréhension des données qu’elles représentent.

Dans le contexte de la reconnaissance d’objets naturels (tels que les animaux, les plantes, etc.), la fusion de données, commence de plus en plus à devenir une étape indispensable dans la chaîne d’identification BERGet BELHUMEUR[2013]; TOUSCHet collab. [2012]. Se- lon les experts, ces objets sont généralement reconnus en considérant diverses sources d’information inhérente à leur composition et à leur structure.

Dans le cas de l’identification des feuilles de plantes, nous avons vu, dans les cha- pitres précédents, que les sources d’information considérées varient en fonction de la

région d’intérêt de la feuille (i.e, parties sémantiques ou feuille entière) et/ou selon l’at- tribut utilisé (i.e, forme ou texture). D’autres sources d’informations, aussi importantes et qui pourront être étudiées dans le futur, sont les observations prises à des endroits ou à des périodes différentes.

D’une manière générale, la fusion d’information peut intervenir dans de la chaîne d’identification DONGet collab. [2014] soit au niveau de la représentation soit au niveau de la prise de décision.

On désigne par fusion précoce ou fusion de caractéristiques, l’opération qui consiste à concaténer les différentes représentations à travers des méthodes de normalisation, de sélection de primitives ou de projection, avant tout processus de classification. L’autre ca- tégorie de méthodes de fusion, dite tardive, s’applique, en revanche, après la classification séparée de chacune des représentations. Elle consiste à fusionner les résultats de chaque classifieur. Dans cette catégorie de méthodes, on distingue plusieurs sous-catégories selon le type d’information générée par les classifieurs : rangs, scores ou décisions.

Le critère d’une bonne méthode de fusion est qu’elle soit capable, au mieux, d’intégrer et de tirer partie des différentes informations considérées et ainsi d’augmenter la robus- tesse du système de reconnaissance. Dans notre contexte, nous allons explorer et évaluer principalement les méthodes de fusion tardives. Notre choix est motivé par les deux rai- sons suivantes :

— La première raison vient du fait que les parties sémantiques sont considérées, par les botanistes, comme des entités à part entier. En effet, les botanistes ont décrit chacune de ces parties séparément, en définissant des schémas de catégorisation qui représentent la variation de chaque partie indépendamment des autres (cf. Fi- gure 3.42 et GROUP[1999]).

— La deuxième raison est liée à la difficulté que pose l’hétérogénéité des signatures à fusionner, par exemple, des signatures ayant des dimensions ou des échelles diffé- rentes.

Dans le document Analyse et description de la morphologie foliaire : application à la classification et l'identification d'espèces de plantes (Page 133-136)