• Aucun résultat trouvé

2.4 Types de sources agricoles

2.4.1 Taxonomies

Le terme "taxonomie" provient du mot grecque "taxinomia" qui est composé du terme "taxis" (classement) et du terme "nomos" (loi). Le terme est apparu en 1863 dans l’ouvrage "Théorie élémentaire de la botanique ou exposition des principes de la classification naturelle et de l’art de décrire et d’étudier les végétaux" [de Candolle, 1813] écrit par Augustin Pyrame de Candolle. Initialement, une taxonomie était consacrée au recensement et à la catégorisation des organismes vivants. De nos jours, une taxonomie peut permettre la catégorisation d’autres domaines.

Dans ce manuscrit, nous considérerons qu’une taxonomie est le classement des êtres vivants. Elle permet de représenter chaque catégorie d’être vivant sous la forme de taxons avec des liens hiérarchiques entre taxons. Un taxon représente une catégorie d’être vivant plus ou moins spécifique. Ce taxon peut être désigné par plusieurs termes.

NCBI Taxonomy

Un exemple de taxonomie utilisée dans le domaine de l’agrnomie est la NCBI Taxonomy28. Cette taxonomie n’est pas uniquement consacrée à la catégorisation des types de cultures mais aussi à la catégorisation de tous les êtres vivants associés à des séquençages d’ADN. Elle contient un très grand nombre de taxons (457.110). Historiquement, le NCBI avait pour mission de récolter et de référencer le séquençage de fragments d’ADN. Les outils de séquençage de fragments d’ADN se sont particulièrement développés au début des années 1990. En raison de la quantité de plus en plus grande de résultats de séquençage à stocker, des bases de données ont été mises en place pour centraliser ces séquençages. NCBI est l’organisme qui a été en charge du développement et du maintien de la base de données sur le continent nord américain. L’équivalent a été mis en place en Europe par l’EBI29, mais l’EBI ne maintient pas de taxonomie. Afin de catégoriser les êtres vivants associés aux différents séquençages d’ADN, le NCBI a réutilisé sa base de données des génomes (GenBank30) pour créer et maintenir à jour sa taxonomie des organismes vivants. La taxonomie du NCBI est devenue incontournable dans le domaine de la biologie. Bien que le NCBI précise que leur taxonomie n’a pas vocation à devenir un référentiel dans le

28. The National Center for Biotechnology Information -http://www.ncbi.nlm.nih.gov/taxonomy

29. European Bioinformatics Institute -https://www.ebi.ac.uk

NCBI Taxonomy Type de source Taxonomie

Modèle Base de données

Implémentation TSV

Table 1 – Caractéristiques de NCBI Taxonomie

domaine du vivant, dans la pratique, les experts du domaine font souvent référence à cette taxonomie, à défaut d’en avoir une qui soit exhaustive.

De par son lien avec GenBank, NCBI Taxonomy repose sur une modélisation que l’on appelle APG-III [APG, 2009]. Cette classification repose sur une catégorisation des taxons par similitudes génétiques. Elle est par conséquent à différencier de la classifica-tion Cronquist [Cronquist, 1981]. Cette dernière est fondée sur une catégorisation par similitude phénotypique. Ces classifications sont, toutes deux, utilisées dans le domaine de la biologie.

L’accès à la NCBI Taxonomy peut se faire de deux façons. La première est l’utilisation d’une interface Web permettant la navigation dans la taxonomie suivant la hiérarchie de taxons. La navigation peut être assistée par une interface d’interrogation par mots-clefs (nommée ici Entrez)[Sayers, 2009]. Cette interface est utile d’un point de vue utilisateur,

puisqu’elle facilite l’accès à la taxonomie, même pour des utilisateurs non-informaticiens. Par exemple ici,http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id= 4567nous accédons à la page associée à "Triticum Durum", le blé dur. Néanmoins, un des aspects qui nous intéresse est la ré-exploitation de cette source. Pour cela, il existe aussi un format d’exportation de la taxonomie permettant de la manipuler directement. Le NCBI propose un accès FTP à ses fichiers sources contenant la taxonomie dans son intégralité31.

Le modèle utilisé par cette source est une base de données. Chaque fichier représentant une table, des identifiants sont utilisés dans ces fichiers pour faire le lien entre les fichiers. Le format d’implémentation utilisé ici ressemble à du CSV32[Shafranovich, 2005], à ceci près que la virgule est remplacée par la suite de caractère "tabulation barre verticale tabulation". La description détaillée de l’organisation des fichiers de la taxonomie est accessible à cette adresseftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump_readme.txt. Nous pouvons remarquer que beaucoup d’informations sont en relation avec le séquençage génétique des organismes vivants. De plus, les termes utilisés pour désigner un organisme sont séparés dans un deuxième fichier (names.dmp), le lien se faisant par un id unique. Il est possible de découvrir les liens hiérarchiques entre taxons en utilisant l’attribut "parent tax_id" et il est également possible d’identifier le rang taxonomique grâce à l’attribut "rank". La division permet directement de filtrer les organismes vivants de type plante. De cette manière, nous pouvons récupérer toute la taxonomie des plantes provenant de la NCBI Taxonomy.

31. ftp://ftp.ncbi.nih.gov/pub/taxonomy

TaxRef

Contrairement à la NCBI Taxonomy, TaxRef est une taxonomie qui a vocation à devenir un référentiel national[Gargominy et al., 2014]. Alimentée et administrée par le MNHN33, l’objectif de cette taxonomie est de répertorier tous les noms scientifiques et synonymes pouvant permettre l’identification d’un organisme vivant en France. Après avoir observé une augmentation du nombre d’organismes vivants et la prolifération des référentiels existants, le MNHN a décidé de créer un référentiel national, en respectant la nomenclature des différents référentiels internationaux déjà existants. De cette manière, le partage des données concernant la taxonomie des organismes vivants devient plus simple, non seulement en France mais aussi dans le monde entier. Pour alimenter cette taxonomie, le MNHN réutilise différentes bases de données validées et officielles (WoRMS34, base Nadeaud35, ...) mais aussi les publications scientifiques. Pour garantir leur statut de référence et donc avoir une qualité optimum, ces réutilisations se font manuellement par un ensemble d’experts. Comme cette source est une référence, seuls les taxons définis dans la litérature scientifique sont considérés. Bien qu’un terme puisse ne pas être considéré comme le taxon scientifique de l’organisme vivant, il se peut que, dans la littérature scientifique, il soit couramment utilisé. De cette manière, il est renseigné dans la taxonomie TaxRef. C’est pour cela que cette taxonomie comporte aussi bien des noms vernaculaires36 que des noms scientifiques.

Le MNHN propose une interface Web pour parcourir la taxonomie à partir de requêtes par mots-clefs. De cette manière, nous accédons à une page associée à l’organisme vivant proposant un certain nombre d’informations, telles que les localisations de cultures ou d’élevage, les différents termes associés et d’autres. Par exemple http://inpn.mnhn. fr/espece/cd_nom/141978 la page associée au "Triticum Durum". Nous retrouvons notamment sur cette page le nom vernaculaire associé à cette espèce : le blé d’Afrique. De la même manière que pour la NCBI Taxonomy, il est intéressant de pouvoir manipuler directement la taxonomie. C’est pour cette raison que, après une inscription et une justification de l’utilisation de ce référentiel, un fichier est proposé au téléchargement contenant la taxonomie37.

Là encore, pour cette source, le modèle utilisé est la base de données. Pour simplifier l’exploitation de cette taxonomie, le choix a été fait de renseigner tous les taxons dans une seule table et de définir uniquement les valeurs possibles dans des tables associées (c.f. figure8). L’implémentation de ce fichier est effectuée dans un format similaire au

CSV, mais séparant les valeurs par des caractères "|".

33. Muséum National d’Histoire Naturelle

34. World Register of Marins Species -http://marinespecies.org/

35. http://inpn.mnhn.fr/espece/inventaire/I220

36. "Nom vulgaire d’animal ou de végétal, par opposition aux noms qui suivent les règles de la nomenclature scientifique" -http://www.cnrtl.fr/definition/vernaculaire

Figure 8 – Modèle des données de la taxonomie TaxRef

TaxRef Type de source Taxonomie

Modèle Base de données

Implémentation Valeurs séparées par "|"

Figure 9 – Structure d’un thésaurus ISO 2788