• Aucun résultat trouvé

Harmonisation des Référentiels taxonomiques OMNIDIA et Sandre pour l'élément Biologique diatomées. Développement d'un support de transcription. Rapport. Pôle Hydroécologie des cours d'eau ONEMA-Cemagref Lyon MAEP-LHQ

N/A
N/A
Protected

Academic year: 2021

Partager "Harmonisation des Référentiels taxonomiques OMNIDIA et Sandre pour l'élément Biologique diatomées. Développement d'un support de transcription. Rapport. Pôle Hydroécologie des cours d'eau ONEMA-Cemagref Lyon MAEP-LHQ"

Copied!
13
0
0

Texte intégral

(1)

HAL Id: hal-02599631

https://hal.inrae.fr/hal-02599631

Submitted on 16 May 2020

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Harmonisation des Référentiels taxonomiques

OMNIDIA et Sandre pour l’élément Biologique

diatomées. Développement d’un support de

transcription. Rapport. Pôle Hydroécologie des cours

d’eau ONEMA-Cemagref Lyon MAEP-LHQ

M. Ferreol

To cite this version:

M. Ferreol. Harmonisation des Référentiels taxonomiques OMNIDIA et Sandre pour l’élément Bi-ologique diatomées. Développement d’un support de transcription. Rapport. Pôle Hydroécologie des cours d’eau ONEMA-Cemagref Lyon MAEP-LHQ. irstea. 2010, pp.12. �hal-02599631�

(2)

Partenariat 2010 – Domaine Qualité des masses d’eau - Action 18 : Règles et outils d’évaluation de l’état des cours d’eau

Harmonisation des

Référentiels

taxonomiques

Omnidia et Sandre

pour l’élément

Biologique diatomées.

Développement d’un support de

transcription

Rapport final

Martial Ferréol

Ingénieur d’études

martial.ferreol@cemagref.fr

Pôle Onema Cemagref 3bis Quai Chauveau CP 220 69336 LYON CEDEX 09

(3)

Contexte de programmation et de réalisation

Le développement par l’Onema du système d’évaluation de l’état écologique (SEEE) nécessite la mise au point d’un corpus intégré et harmonisé d’indicateurs biologiques et physico-chimiques. Il faut aussi alimenter le système en données biologiques, dans l’attente de l’opérationnalité du SIE, et participer à la mise en conformité des informations au Sandre.

Dans ce cadre,le logiciel Omnidia qui existe depuis plusieurs années, gère les listes diatomées des experts métiers même au niveau international. Il est donc nécessaire d’harmoniser ce référentiel avec celui du Sandre.

Les auteurs

Martial Ferréol Ingénieur d’études

martial.ferreol@cemagref.fr

Pôle Onema Cemagref 3bis Quai Chauveau CP 220 69336 LYON CEDEX 09

Les correspondants

Onema : Jean-Pierre Porcher Cemagref : Martial Ferréol

Droits d’usage : Document technique à destination des partenaires Couverture géographique : Niveau géographique France National Niveau de lecture : Nature de la ressource : Professionnels, experts Rapport

(4)

Harmonisation des Référentiels taxonomiques Omnidia et Sandre pour l’élément Biologique diatomées. Rapport final Martial Ferréol SOMMAIRE 1. Introduction ... 5 2. Données et méthodes ... 5 2.1. Référentiel Omnidia 5 2.2. Référentiel Sandre 6

2.3. Principes du traitement des données 6

2.3.1.Lecture du champ ‘Synonymes’ de la base Omnidia 6

2.3.2.Classification et résolution des incohérences 7

2.3.3.Harmonisation des deux référentiels 7

3. Résultats ... 7

3.1. Analyse des relations synonymiques 7

3.2. Expertise et choix des taxons référents 7

(5)

Partenariat 2010

Domaine Qualité des masses d’eau (cours d’eau) Action 18 : Règles et outils d’évaluation de l’état des

cours d’eau

Harmonisation des référentiels taxonomiques OMNIDIA et Sandre pour l’élément biologique Diatomées M.Ferréol

Octobre, 2010 - p 4/12

Harmonisation des Référentiels taxonomiques Omnidia et Sandre pour l’élément Biologique diatomées.

Martial Ferréol

Résumé Résumé

La nécessité d’adapter la codification métier usuellement employée, via le logiciel Omnidia, pour les besoins du référentiel national Sandre « Diatomées » a nécessité un long travail collaboratif. Les avancements ont été présentés et discutés entre membres d’un groupe de travail dédié. Mais les principales tâches ont été accomplies par trois personnes : Catherine Lecointe (propriétaire et programmeuse du logiciel Omnidia), Michel Coste (Cemagref, expert taxonomiste) et Martial Ferréol (Cemagref, responsable base de données hydrobiologique).

L’objectif principal est de pouvoir transcrire les codes métiers Omnidia à quatre lettres en code Sandre. Il a fallu pour cela harmoniser ce référentiel avec celui du Sandre car ils ont chacun leur logique. La principale difficulté résulte en la gestion des codes Omnidia synonymes qui sont des entités indépendantes seulement pour Omnidia. Il a donc fallu s’assurer d’allouer un code référent à chacun de ses codes synonymes.

Une telle démarche s’est opérée en trois étapes successives. Tout d’abord un travail d’analyse en profondeur du contenu de la base Omnidia. Il s’agissait d’établir toutes les relations taxonomiques d’après le contenu du champ ‘Synonyme’. Les incohérences rencontrées ont alors été classifiées. Chaque taxon référent ambigu a ensuite été confirmé ou désigné d’après les dires d’expert. La dernière étape a consisté à associer un code Sandre aux codes référents. Il en a résulté le besoin de mettre à jour en conséquence le référentiel Sandre en créant des codes Sandre, modifiant le statut des codes synonymes et dégelant le statut de certains codes référents jusqu’alors rendus ineffectifs.

Le résultat final est une table de conversion Omnidia vers Sandre. Il est à noter qu’une démarche de suivi régulier des mises à jour respectives entre ces deux référentiels est à mettre en place en parallèle de ces présents travaux. En effet ces derniers constituent une étape préalable nécessaire à la régularisation des deux référentiels et ne sauraient devenir une routine.

Mots clés (thématique et géographique)

(6)

Harmonisation des Référentiels taxonomiques Omnidia et Sandre pour l’élément Biologique diatomées.

Martial Ferréol

1.

Introduction

Dans le cadre du développement du volet hydrobiologique de la base de données Naïades, il existe un besoin de compatibilité avec les modèles et jeux de données Sandre d’une part mais aussi avec les bases métiers déjà existantes et ayant leur propre référentiel d’autre part.

Le logiciel Omnidia qui existe depuis plusieurs années, gère les listes diatomées des experts métiers même au niveau international. Il est donc nécessaire d’harmoniser ce référentiel avec celui du Sandre.

Actuellement la base Omnidia comprend 15 369 références au niveau spécifique et infra-spécifique. Ces références sont uniques et sont constituées par 4 lettres en majuscules. Chaque synonyme ou forme anormale par exemple possède alors son propre code Omnidia.

Le référentiel Sandre reprend quant à lui les principes de la Systématique classique en attribuant un seul code numérique pour toutes les entités d’un même niveau taxonomique. Cela induit que les synonymes et les formes anormales possèdent le même code que le « taxon de référence du Sandre » ou taxon référent.

Les spécialistes indiquent qu’il est indispensable de pouvoir conserver le nom exact du taxon qu’ils ont utilisé lors de la détermination surtout si ce taxon est un synonyme et non le taxon référent car lors des échanges d’import ou d’export dans Naïades, il paraît indispensable de conserver le synonyme utilisé pour ne pas perdre l’information.

Après discussion, la solution trouvée serait d’échanger non seulement le code Sandre du taxon de référence mais aussi le code métier ; tout cela implique une modification du modèle.

La première nécessité et objectif choisi au Cemagref est d’utiliser une clef double pour définir les taxons diatomées, à savoir un champ numérique code Sandre avec un champ texte Omnidia. Cela ne posera pas de problème dans l’architecture actuelle de la base Cemagref Pandore car chaque élément biologique est stocké dans des tables séparées et cela permet d’adapter les formats au besoins et particularités des bases métiers respectives. Le transfert vers Naïades sera aussi facilité car la clef double permettra de faire facilement des tris si besoin par exemple en regroupant par code Sandre seulement.

2.

Données et méthodes

2.1. Référentiel Omnidia

Le référentiel taxonomique Omnidia utilisé ici est constitué de la dernière version en cours modifiée pour quelques éléments par l’expert en charge, Michel Coste du Cemagref de Bordeaux. Cela représente 15 382 références au niveau spécifique et infra-spécifique dont une partie a préalablement déjà été associé à des codes Sandre. Le référentiel est alors organisé en une grande table où chaque entité possède son code à quatre lettres comme identifiant et clef primaire. Chacun de ces taxons est alors renseigné tant au niveau taxonomique (par sa dénomination, ses références bibliographiques éventuelles, son genre et sa famille…) qu’au

(7)

Partenariat 2010

Domaine Qualité des masses d’eau (cours d’eau) Action 18 : Règles et outils d’évaluation de l’état des

cours d’eau

Harmonisation des référentiels taxonomiques OMNIDIA et Sandre pour l’élément biologique Diatomées M.Ferréol

Octobre, 2010 - p 6/12 niveau écologique (avec indication de toute une liste de métriques écologiques). Ce procédé est principalement justifié par la facilité offerte pour le calcul des indices diatomées.

Chaque taxon est aussi associé avec un champ texte qui reprend les codes synonymes et/ou le code référent. Ce dernier est indiqué précédé du symbole « = » alors que les synonymes sont en plus regroupés entre parenthèses. Néanmoins, il n’existe pas de lien dynamique entre les taxons et tout changement fait à ce niveau doit être fait manuellement sur tous les taxons liés.

2.2. Référentiel Sandre

Le référentiel taxonomique Sandre pour les diatomées regroupe toutes les données issues des différents milieux du territoire national. Il comprend donc non seulement les diatomées des cours d’eau mais aussi celles des eaux littorales par exemple. Comme déjà indiqué, ce référentiel reprend les principes de la Systématique classique en attribuant un seul code numérique pour toutes les entités d’un même niveau taxonomique les codes alternatifs et synonymes étant alors spécifiés sous le même code identifiant Sandre. Pour l’instant, les champs ‘code alternatif’ et ‘nom du synonyme’ sont indépendants car le besoin de les lier n’avait jamais été évoqué auparavant. Ce sujet est encore en cours de discussion avec les responsables du Sandre. Mais cela ne change rien à l’objectif d’associer les codes Omnidia aux codes Sandre. Ce référentiel comprend 11 631 codes référents pour le niveau taxonomique espèce et en dessous. Parmi eux 131 codes n’ont pas été créé par le Cemagref. Ils peuvent avoir deux statuts distincts, validé ou gelé suivant que le code est actif ou non. Les deux statuts sont utilisés ici afin d’identifier les éventuels codes à dégeler.

2.3. Principes du traitement des données

L’harmonisation des deux référentiels se fait en trois étapes successives :

2.3.1. Lecture du champ ‘Synonymes’ de la base Omnidia

Un script R de lecture automatique de ce champ va distinguer pour chaque code taxon :

- le ou les éventuel(s) code(s) référent(s) reconnaissable(s) par le symbole ‘=’ qui les précède.

- les éventuels codes synonymes qui sont aussi précédés par un ‘=’ mais qui sont entre parenthèses

- les codes particuliers qui ont un suffixe comme ‘?’, ‘pp’, ‘ss’ ou ‘sensu’ (indiquant respectivement ‘pas communément reconnu’, proparte, ss ou sensu une référence ou un auteur particulier). Ces derniers ont donc une particularité taxonomique qui implique une relation conditionnelle avec le synonyme ou le référent. il convient donc de clarifier ces situations floues pour les besoins de ces travaux.

La réciprocité des relations référent – synonyme à ensuite été vérifiée. Il en a résulté plusieurs situations :

- pas de synonymie

- la relation est réciproque

- la relation n’est pas réciproque, distinction suivant qu’il s’agit du référent ou du synonyme.

(8)

- le référent est lui-même le synonyme d’un autre taxon

Enfin une comparaison entre le code Sandre éventuellement déjà renseigné dans le référentiel Omnidia et le contenu du référentiel Sandre à été faite.

2.3.2. Classification et résolution des incohérences

Les différentes situations rencontrées lors de la phase précédente ont été classifiées selon une structure hiérarchique. Afin de simplifier la phase d’expertise, ces catégories ont été regroupées selon des grandes classes définies selon la nature du traitement à entreprendre selon la situation.

Une réunion entre experts à été faite afin de prendre des décisions sur les cas litigieux rencontrés. Il s’agissait de Michel Coste du Cemagref de Bordeaux en tant qu’expert de l’élément biologique « Diatomées », de Catherine Lecointe de la société CLCI en charge du logiciel Omnidia et de Martial Ferréol du Cemagref de Lyon en tant que gestionnaire des données.

Cette réunion s’est suivie d’échanges afin de finaliser les décisions. À la suite de cette procédure, chaque code taxon Omnidia est associé à un code référent.

2.3.3. Harmonisation des deux référentiels

Avec une logique unilatérale, le code Sandre des référents (mais aussi des synonymes) a été cherché dans le référentiel Sandre (niveau espèce et infra-spécifique) de Novembre 2010. De la même manière que précédemment, un regroupement par cas de figure à été fait afin de faciliter la suite des opérations, c'est-à-dire la mise à jour du référentiel Sandre en conséquence.

3.

Résultats

3.1. Analyse des relations synonymiques

Au final, sur les 15 382 références, 5 673 codes présentent une incohérence. La figure 1 reprend la classification hiérarchique des situations rencontrées. Pour un code Omnidia donné, il s’agit aussi d’associer à la relation référent-synonyme trouvé, la comparaison entre les quatre manières possibles d’accéder à son code Sandre, à savoir : le code Sandre du taxon considéré indiqué dans Omnidia, le code Sandre du taxon référent indiqué dans Omnidia, le code Sandre du taxon considéré indiqué directement dans le Sandre et le code Sandre du taxon référent indiqué directement dans le Sandre.

3.2. Expertise et choix des taxons référents

Les 23 catégories rencontrées dans la figure 1 sont regroupées en 5 grandes classes :

- les taxons sans problème (14 142 taxons)

(9)

Partenariat 2010

Domaine Qualité des masses d’eau (cours d’eau) Action 18 : Règles et outils d’évaluation de l’état des

cours d’eau

Harmonisation des référentiels taxonomiques OMNIDIA et Sandre pour l’élément biologique Diatomées M.Ferréol

Octobre, 2010 - p 8/12

- les référencements multiples (13 taxons)

- les cas des formes anormales (212 taxons)

- les autres cas (référencement en boucle, non réciproquement explicite ; 959 taxons) Les occurrences indiquées sont celles après traitement, on passe alors d’un total de 15 382 taxons à 15 583 après élimination de certains taxons et ajout de formes anormales.

(10)

Code OMNIDIA

C’est un Référent C’est un Synonyme

Codes Sandre des 2 référentiels tous identiques

Codes Sandre des 2 référentiels différents

Codes Sandre des 2 référentiels tous identiques

Codes Sandre des 2 référentiels différents

Code sandre du synonyme différent de celui du référent d’après OMNIDIA

Code Sandre du synonyme identique à celui du référent d’après OMNIDIA

Code Sandre du référent différent dans les 2 référentiels

Codes Sandre du taxon référent différents dans les 2 référentiels Le référent possède

un code Sandre - Code sandre ok

9543 cas

- Pas de code Sandre

1503 cas

-Pas de code Sandre pour le référent

90 cas

- Pas de code Sandre

186 cas

Codes différents dans les 2 référentiels

- code sandre non indiqué dans OMNIDIA

20 cas

- Code sandre non indiqué dans Sandre

94 cas

- Code sandre différent dans les 2 référentiels

119 cas

- Code sandre ok

73 cas

-Code Sandre du référent identique dans les 2 référentiels

30 cas

Code sandre du synonyme identique dans les 2 référentiels mais :

-Code du synonyme inconnu dans OMNIDIA

142 cas

-Code du référent inconnu dans OMNIDIA

144 cas

-Code du référent et du synonyme inconnus dans OMNIDIA

831 cas

Code sandre du synonyme différent dans les 2 référentiels et :

-Code Sandre du référent dans OMNIDIA différent

de celui du Sandre

100 cas

-Code sandre du référent inconnu dans le Sandre

152 cas

-Code Sandre du référent inconnu dans OMNIDIA

18 cas

Codes Sandre du taxon référent identiques dans les 2 référentiels

- Pas de code Sandre pour le référent dans le Sandre

28 cas

- Code Sandre du synonyme différent dans le Sandre

7 cas

-Code Sandre du référent ok

5 cas

Code Sandre du synonyme et du référent identiques

dans le Sandre :

-Code inconnu dans le Sandre

18 cas

Code Sandre du synonyme et du référent différents

dans le Sandre :

-Code du référent inconnu

14 cas

-Code du synonyme inconnu

1785 cas

-Codes différents

482 cas

Figure 1 : Structure hiérarchique des incohérences rencontrées en analysant les relations de synonymies des codes taxons Omnidia et avec comparaison des codes Sandre indiqués dans les deux référentiels (Omnidia et Sandre). Les couleurs des cases sont indicatives des relations logiques : les concordances en vert, les discordances en rouge, les absences de code Sandre en jaune et les présences de code Sandre en bleu.

(11)

Partenariat 2010

Domaine Qualité des masses d’eau (cours d’eau) Action 18 : Règles et outils d’évaluation de l’état des

cours d’eau

Harmonisation des référentiels taxonomiques OMNIDIA et Sandre pour l’élément biologique Diatomées M.Ferréol

Octobre, 2010 - p 10/12 Harmonisation avec le référentiel Sandre

Le référentiel Sandre possède 11 117 des codes taxons Omnidia pour des référents et 4252 de codes Omnidia pour des synonymes. Si on reclasse les 15 382 codes taxons du référentiel Omnidia à la lumière du contenu du référentiel Sandre, on trouve la classification suivante.

Parmi les 11 117 codes Omnidia référents : • 9498 sont bien codifiés des deux côtés, • 1433 n’ont pas de code Sandre,

• 152 n’ont pas de code Sandre mais au moins un des ses synonymes en a un, • 27 sont gelés,

• 7 sont gelés alors qu’au moins un de leur synonyme possède un code Sandre validé. Parmi les 4252 taxons synonymes :

• 1630 sont bien codifiés des deux côtés (i.e. comme un code alternatif dans le référentiel Sandre),

• 246 n’ont pas de code Sandre (ni pour leur référent),

• 2102 n’ont pas de code Sandre (alors que le référent en a un), • 223 ont un code Sandre alors que leur référent n’en a pas, • 28 ont un référent gelé,

• 8 ont un référent gelé alors qu’ils ont un autre code validé,

• 15 ont des codes erronés (i.e. le code Sandre du mauvais référent). Tout ceci est repris dans le fichier Excel table_prob_OMNIDIA.xls.

A l’opposé, si on effectue la même démarche depuis, cette fois, le contenu du référentiel Sandre, on dénombre :

• 9498 codes Sandre déjà existants pour les référents,

• 34 codes Sandre déjà existants pour les référents mais à dégelé, • 1887 codes attribués à des synonymes,

• 384 codes non utilisés.

Tout ceci est repris dans le fichier Excel table_prob_sandre.xls.

La dernière étape de mise à jour du référentiel Sandre reste à faire avec une action conjuguée du Sandre et du Cemagref, formalisée lors de la réunion du 24 novembre à Gentilly (DRIEEE IdF) avec les représentants du Sandre, de l’Onema, du Cemagref (Lyon et Bordeaux), ainsi que des DREAL.

Une première étape de création massives des codes Sandre manquants.

Cette tâche doit être faite par le Cemagref en étant aidé par le Sandre qui fournira un format d’import facilité.

Une seconde étape de dégel des quelques taxons référents concernés. Le Sandre peut prendre en charge cette tâche.

(12)

Une dernière étape de mise à jour des synonymes.

Comme tous les codes Sandre des référents seront alors disponibles, il suffira de leur allouer les codes alternatifs au format Omnidia ainsi que la dénomination des taxons synonymes puis de geler les codes superflus. La procédure doit aussi être opérée par le Cemagref toujours en étant facilitée par le Sandre qui mettra à disposition un format d’échange adapté au volume des requêtes de mise à jour (et non plus de création) que cela implique.

Concernant le Cemagref, Martial Ferréol aura en charge de remplir les formats d’échanges facilités afin de lancer les procédures de créations de code Sandre puis de mise à jour dans l’outil de gestion des référentiels eau du sandre (Ogres). Mais il convient ensuite de désigner un (ou plusieurs) consultant(s) au sein du Cemagref de Bordeaux, où se trouvent les spécialistes taxonomiques du domaine, afin qu’il(s) prenne(nt) en charge la gestion des retours d’informations que va générer automatiquement cette procédure.

Conclusion

Une table de transcription des codes Omnidia vers les codes Sandre est maintenant disponible en version 1.

Cette étape préalable nécessaire reste ponctuelle et ne saurait devenir une routine. En effet, le volume des deux référentiels jusqu’alors gérés en parallèle nécessitait bien une prise d’initiative et de décisions à plusieurs afin d’avoir un point de départ pour une synchronisation des référentiels.

En revanche, le processus ultérieur de cette synchronisation se doit d’être mis en place en accord conjoint entre le Sandre, le Cemagref et la société CLCI qui gère le logiciel Omnidia et ne sera donc pas abordé dans le présent rapport.

(13)

Partenariat 2010

Domaine Qualité des masses d’eau (cours d’eau) Action 18 : Règles et outils d’évaluation de l’état des

cours d’eau

Harmonisation des référentiels taxonomiques OMNIDIA et Sandre pour l’élément biologique Diatomées M.Ferréol

Octobre, 2010 - p 12/12

Onema Cemagref

Hall C – Le Nadar Parc de Tourvoie

5 square Félix Nadar BP 44,

94300 Vincennes 92163 Antony cedex

01 45 14 36 00 01 40 96 61 21

Figure

Figure  1  :  Structure  hiérarchique  des  incohérences  rencontrées  en  analysant  les  relations  de  synonymies  des  codes  taxons Omnidia et avec comparaison des codes Sandre indiqués dans les deux référentiels (Omnidia et Sandre)

Références

Documents relatifs

Exercice 4 : La combustion complète de 0.35 g d’un composé A de formule brute C x H y a donné 0,45 g d’eau. Déduire celui du carbone.. 2/ a- Sachant que la masse molaire de A est

Si l'on en croit Jesse Fox, auteur principal d'une étude et professeur assistante en communication à l'Université de l'Ohio, les hommes qui publient beaucoup de selfies sur

Les élèves ne disposant pour l’instant que d’informations qualitatives sur l’énergie potentielle et l’énergie cinétique d’un système, le but de

marge brute – remise – prix d’achat net – prix de vente hors taxe – coût d’achat prix de vente toute taxe comprise – prix d’achat net – frais d’achat – prix

 A chaque type et chaque degré est affecté un nombre de points La méthode permet de calculer le poids du projet en points de

1.1 : A partir du dessin de définition et du dessin de brut, justifier le choix adopté pour la mise en position isostatique de la chaise dans le contrat de phase n°30

* Détermination de la graduation 100 : on plonge le réservoir du thermomètre dans de l’eau en ébullition sous la pression atmosphérique normale.. Le liquide dans le capillaire

Elle est d’autant plus importante que la masse de la charge est grande et s’oppose à la mise en mouvement. Elle est caractérisée par le moment d’inertie J, qui s’exprime en