• Aucun résultat trouvé

CoDesc , un modèle de représentation des connaissances descriptives et

2.11 Elaboration d’une base de connaissances avec CoDesc

spécificité. Ces illustrations (photos) et les valeurs associées peuvent être « remontées » automatiquement au niveau du modèle, afin de renseigner directement les caractères définis au sein du modèle.

Des annotations et des mots clefs peuvent être associés à ces données contextuelles (fig. 2.15) pour expliciter, commenter le contenu, etc. Les mots clefs permettent d’effectuer une recherche dans l’ensemble des données contextuelles présentes dans la base de connaissances.

Fig. 2.15 – Exemple de données contextuelles associées à un descripteur du modèle descriptif, l’attribut localisation du composant Contexte. Des commentaires et des mots clefs peuvent être associés à chaque descripteur.

2.11 Elaboration d’une base de connaissances avec CoDesc

Après cet aperçu du modèle conceptuel de représentation des connaissances CoDesc, on s’in-téresse dans cette partie à quelques aspects pouvant guider les experts dans l’élaboration d’une base de connaissances. Les détails permettant d’améliorer la robustesse des systèmes d’aide à la description, à la classification et à la détermination des objets biologiques sont développés dans Conruyt (1994).

2.11.1 Acquisition de l’Observable

L’acquisition de ce qui est potentiellement observable consiste dans un premier temps à définir un modèle descriptif (concept) pour un sous-domaine du domaine considéré, et donc à identifier au préalable ce sous-domaine. Les critères pouvant guider ce choix peuvent être par exemple le degré d’homogénéité des observations relevant du concept ou encore la réalité taxonomique. On s’intéressera à une famille, un genre ou une espèce particulière.

La conception d’un modèle est ensuite fondée sur l’observation de la variabilité de l’Observé. Ceci est un travail de spécialiste, car il nécessite une bonne expérience et une certaine familiarité

avec le domaine. En effet, caractériser d’emblée tout ce qui est observable est une tâche très difficile, qui requiert une vision synthétique et complète du domaine. Il en résulte que le choix des objets composants, des différents attributs, valeurs et règles mis en jeux, ne peuvent en pratique être réalisés dès le départ. La démarche que nous proposons, dite itérative ou incrémentale permet d’affiner progressivement le modèle initiale (premier jet) par modifications successives, sur la base des descriptions (l’observé) de spécimens décrits à l’aide du modèle. Grâce à ces descriptions organisées dans une base de cas, les méthodes d’analyse peuvent également aider l’expert à reconsidérer ses choix : ajouter de nouveaux descripteurs, modifier les noms, etc. lors de l’étape de validation.

2.11.2 Les objectifs de la modélisation

Définir les éléments d’un modèle descriptif nécessite de caractériser clairement les objectifs de la modélisation : représenter de « bonnes » descriptions ne suffit pas, il faut au préalable définir clairement le but de la modélisation. Hormis l’objectif intrinsèque de l’informatisation des données de collection, nous distinguons essentiellement quatre objectifs pouvant guider les choix des éléments intervenant dans un modèle descriptif :

1. inférence de taxonomie, à partir de descriptions, 2. classification d’objets,

3. identification d’individus, 4. détermination d’objets. Inférence de taxonomies

C’est un des objectifs majeur pour les biologistes. L’inférence de taxonomies consiste à trou-ver une taxonomie qui organise un ensemble d’individus. Elle est appelée classification en analyse de données et classification conceptuelle en apprentissage. Pour les biologistes, la classification d’individus est une démarche exploratoire qui vise à remettre en cause les classifications pré-existantes. Les descriptions de spécimens constituent la base de ce travail, qui consiste à mettre en oeuvre un ensemble de méthodes de classification comme par exemple des classifications as-cendantes hiérarchiques (CAH), puis étudier les structures obtenues, en comparaison avec les classifications préétablies.

L’objectif de la modélisation est alors de saisir le maximum de caractères sur les individus, sans a priori sur leur rôle et leur utilité pour une classification : l’exhaustivité des descriptions d’individus est recherchée (Conruyt 1994).

Classification d’objets

La classification d’objets (ou de caractères) focalise l’attention sur un objet particulier (un composant) du modèle. L’expert vise à déterminer le rôle de l’objet dans la classification, en particulier s’il correspond à un caractère diagnostique, c’est-à-dire qui permet de séparer de façon non-ambiguë les taxons. On cherchera alors à déterminer s’il s’agit d’un caractère stable, indé-pendant de facteurs extérieurs tels que le milieu écologique par exemple. D’une façon générale,

2.11. Elaboration d’une base de connaissances avec CoDesc la classification d’objets vise à améliorer la connaissance taxonomique d’un groupe particulier. La taxonomie est en effet une théorie très complexe qui émerge de l’étude des caractères, de leur variabilité, de leur signification phylogénétique ou écologique. Dans un grand nombre de groupes zoologiques, la connaissance incomplète ne permet pas de construire une théorie définitive. C’est le cas par exemple des éponges marines ou des coraux.

Pratiquement, l’expert cherchera à étoffer la description de l’objet à classifier par un nombre important de caractères propres. Cet objectif correspond à un besoin d’homogénéisation du vocabulaire dans la communauté des chercheurs du domaine ainsi que la recherche d’homologies entre caractères.

Identification d’individus

Appelée identification en analyse de données, classement ou classification (d’instances) en re-présentation par objets. Elle consiste à déterminer une ou plusieurs classes auxquelles un individu peut appartenir.

L’identification d’individus consiste pour les biologistes à associer la description d’un spé-cimen observé à un taxon. D’un point de vue informatique, elle vise à identifier un ensemble d’individus dans une hiérarchie de concepts (ou classes) préexistante. La détermination n’est pas nécessairement une affaire de spécialiste, elle peut être mise en oeuvre par des non-spécialistes du domaine, à l’aide d’outils adaptés. Nous proposons par la suite (chap. 4) une méthode d’iden-tification assistée par ordinateur (I.A.O.) travaillant à partir des descriptions de CoDesc.

Cependant, ces utilisateurs n’ont pas toujours une connaissance suffisante du domaine, ni les outils (loupe binoculaire, microscope, etc.) nécessaires pour observer correctement les caractères du spécimen à identifier. La redondance des caractères ne doit alors pas être écartée lors de la conception du modèle descriptif, afin que les corrélations entre caractères permettent de remplacer ceux auxquels l’utilisateur ne sait pas répondre (caractères alternatifs). D’autre part, les poids associés aux caractères par le concepteur du modèle permettent de définir dans cet objectif, un préordre sur les caractères en fonction de leur facilité d’observation.

Détermination d’objets

Elle consiste à déterminer lors de la description d’un spécimen de l’étude, pour un compo-sant polymorphe particulier, le sous-compocompo-sant le plus approprié dans la hiérarchie locale de composants (cf. spécialisation des composants). Elle permet de renseigner de manière automa-tique certains objets d’une description, en fonction des valeurs des caractères de l’objet générique renseigné par le descripteur. Elle apparaît donc sous ce point de vue comme une assistance à l’observation. Nous n’avons pas développé à ce jour d’algorithme spécifique de détermination d’objets, qui soit localisé à une hiérarchie de composants. Cet aspect apparaît comme un axe de recherche qui, conjointement aux fonctionnalités hypertextuelles, multimédia, et picturales, concerne l’assistance à l’utilisateur pour la description d’objets complexes.

Dans cet objectif, l’expert doit décrire de manière fine et détaillée certains objets, élaborer des hiérarchies locales (spécialisation) en introduisant éventuellement la possibilité de décrire plusieurs fois les mêmes composants (multiplicité).

2.11.3 Discussion sur la modélisation

Dans un objectif de classification et d’identification d’individus, l’exhaustivité et la redon-dance des informations qui permettent de former un modèle complet est importante. L’expert doit être capable de synthétiser le maximum de connaissances du domaine, à partir des échan-tillons en collection (en particulier les types) et des monographies, pour constituer un modèle descriptif qui définit l’Observable.

L’expert doit aussi interpréter l’Observé existant en dégageant les faits marquants d’une bonne description (Conruyt 1994). Les plus importants sont réifiés en composants, détaillés par un ensemble d’attributs de différents types. L’objet principal est le schéma, racine de l’arbre de description (ou de décomposition), généralement nommé directement par le nom qui désigne au mieux le concept modélisé. Les objets sont ensuite mis en relation, en fonction de la nature des relations qu’ils entretiennent (composition ou spécialisation), de leur niveau de généralité (du plus général au plus particulier).

Nous donnons un exemple d’application issu de la « base de connaissances sur les coraux des Mascareignes », pour illustrer la difficulté de modéliser certains objets un peu particulier.

2.11.4 Exemple d’application : l’objet septes du modèle Pocilloporidae

Le cas d’étude porte sur la modélisation des septes des calices de la famille des Pocilloporidae (fig. 2.16), plus particulièrement sur leur distribution.

Fig. 2.16 – Illustration de la distribution en cycles des septes des calices de la famille des Pocilloporidae. Les septes directeurs sont des septes primaires particulièrement développés, qui parfois se soudent à la columelle.

2.11. Elaboration d’une base de connaissances avec CoDesc Lames calcaires verticales disposées selon une symétrie radiaire d’ordre 6 (Hexacoralliaires), et qui divisent la cavité calicinale en chambres (multiple de 6).

Commentaire de l’expert concernant la distribution des septes

Les septes sont distribués en un, deux, ou trois cycles, dont souvent, seuls les deux premiers sont bien visibles. Il y a au total 12 septes. Le premier cycle renferme 6 septes (septes primaires ou de premier ordre). Le second cycle renferme également 6 septes (septes secondaires ou de second ordre). Le troisième cycle contient 12 septes (septes tertiaires ou de troisième ordre). Cela donne un total maximum de 24 septes. En pratique, il arrive que des cycles soient incomplets.

Les septes primaires sont généralement les septes les plus développés. Cependant, parfois, les septes de deuxième ordre présentent un développement égal ou sub-égal à ceux du premier ordre. Dans certains cas, un ou deux septes du premier cycle sont plus développés que les autres : ils constituent les septes directeurs et marquent également l’axe dorso-ventral du calice. Ces derniers peuvent par ailleurs se souder avec la columelle constituant avec cette dernière une cloison continue séparant le calice en deux parties égales. Dans d’autres cas, c’est l’ensemble des septes de premier ordre qui rejoint la columelle. Cette soudure peut s’établir à différents niveaux, depuis le plancher du calice jusqu’à la partie sommitale de la columelle.

Les septes tertiaires sont généralement peu développés, voire abortifs (matérialisés le plus souvent par des rangées discontinues d’épines verticales intra-calicinales). Dans certains cas, ce dernier type de développement peut également se rapporter aux autres types de septes (indépen-demment des ordres auquels ils appartiennent). L’identification des septes, leur dénombrement ainsi que leur appartenance en cycles s’avère alors difficile.

Modélisation

La modélisation de ce type d’objet complexe a suscité de nombreuses discussions au sein de notre équipe. En effet, plusieurs modélisations sont possibles :

1. Utilisation d’une hiérarchie locale d’objets (fig. 2.17). Une conception possible consiste à modéliser un composant général, septes, dénotant l’ensemble des septes d’un calice, sans distinguer les types des sous-ensembles.

Deux attributs sont attachés à l’objet : le nombre et la distribution correspondant au nombre de septes total et à la distribution de l’ensemble des septes.

Le composant septes-s, de multiplicité [1 3], correspond à une sorte de septes non nommé59

. septes-s est spécialisé en trois objets plus spécifiques correspondant respectivement aux septes primaires, secondaires et tertiaires. Notons que les septes directeurs sont une par-tie très développée des septes primaires, d’où la relation de composition entre les deux. Les septes directeurs peuvent être absents. A partir de cette modélisation, le descripteur a ensuite la possibilité de ne pas nommer le type de septes observés, selon ses facultés d’ob-servation et de compréhension du domaine, en instanciant plusieurs fois septes-s sans les nommer. En fonction des valeurs renseignées, le système est capable de préciser automati-quement (détermination d’objet) le type des objets décrits. En particulier, si la propriété

soudure à la columelle est vrai, l’objet est de type septes primaires, et le composant septes directeurs est présent.

2. Modélisation plus « classique ». Un composant septes et trois sous-composants, correspon-dant respectivement aux quatre sortes de septes.

Fig. 2.17 – Deux modélisations possibles de l’objetseptes. (1) fait usage de la spécialisation et de la multiplicité, (2) utilise uniquement la composition.

La modélisation s’est portée sur le second choix (fig. 2.18), pour deux raisons. D’une part, il est impératif de comprendre le principe de distribution des septes pour pouvoir les observer correctement. En particulier, seuls les septes primaires peuvent être soudés à la columelle (partie centrale des calices). D’autre part, le nombre de septes n’est pas aléatoire, il procède d’une certaine logique, 6, 12 ou 24 septes peuvent être observés, selon que seuls les septes primaires sont présents, les primaires et les secondaires ou bien les trois types, respectivement. Il est donc important de ne pas confondre les trois types de septes, afin de ne pas compromettre cette « arithmétique de la nature ». Il est possible d’associer à l’attribut nombre[septes] une règle permettant de calculer automatiquement le nombre total de septes.

L’exemple 2.18 illustre une description locale des septes. Notons qu’il a été impossible pour l’auteur de décider (ou d’observer) la présence de septes tertiaires, qui sont abortifs, c’est-à-dire très peu développés voir presque inexistants. La valeur [0 12] associée au nombre de septes tertiaires caractérise donc une imprécision.