2.4 Types de sources agricoles
2.4.1 Taxonomies
Le terme "taxonomie" provient du mot grecque "taxinomia" qui est composé du
terme "taxis" (classement) et du terme "nomos" (loi). Le terme est apparu en 1863
dans l’ouvrage "Théorie élémentaire de la botanique ou exposition des principes de la
classification naturelle et de l’art de décrire et d’étudier les végétaux" [de Candolle, 1813]
écrit par Augustin Pyrame de Candolle. Initialement, une taxonomie était consacrée au
recensement et à la catégorisation des organismes vivants. De nos jours, une taxonomie
peut permettre la catégorisation d’autres domaines.
Dans ce manuscrit, nous considérerons qu’une taxonomie est le classement des êtres
vivants. Elle permet de représenter chaque catégorie d’être vivant sous la forme de taxons
avec des liens hiérarchiques entre taxons. Un taxon représente une catégorie d’être vivant
plus ou moins spécifique. Ce taxon peut être désigné par plusieurs termes.
NCBI Taxonomy
Un exemple de taxonomie utilisée dans le domaine de l’agrnomie est la NCBI Taxonomy
28.
Cette taxonomie n’est pas uniquement consacrée à la catégorisation des types de cultures
mais aussi à la catégorisation de tous les êtres vivants associés à des séquençages d’ADN.
Elle contient un très grand nombre de taxons (457.110). Historiquement, le NCBI avait
pour mission de récolter et de référencer le séquençage de fragments d’ADN. Les outils de
séquençage de fragments d’ADN se sont particulièrement développés au début des années
1990. En raison de la quantité de plus en plus grande de résultats de séquençage à stocker,
des bases de données ont été mises en place pour centraliser ces séquençages. NCBI est
l’organisme qui a été en charge du développement et du maintien de la base de données
sur le continent nord américain. L’équivalent a été mis en place en Europe par l’EBI
29,
mais l’EBI ne maintient pas de taxonomie. Afin de catégoriser les êtres vivants associés
aux différents séquençages d’ADN, le NCBI a réutilisé sa base de données des génomes
(GenBank
30) pour créer et maintenir à jour sa taxonomie des organismes vivants. La
taxonomie du NCBI est devenue incontournable dans le domaine de la biologie. Bien
que le NCBI précise que leur taxonomie n’a pas vocation à devenir un référentiel dans le
28. The National Center for Biotechnology Information -http://www.ncbi.nlm.nih.gov/taxonomy
29. European Bioinformatics Institute -https://www.ebi.ac.uk
NCBI Taxonomy
Type de source Taxonomie
Modèle Base de données
Implémentation TSV
Table 1 – Caractéristiques de NCBI Taxonomie
domaine du vivant, dans la pratique, les experts du domaine font souvent référence à
cette taxonomie, à défaut d’en avoir une qui soit exhaustive.
De par son lien avec GenBank, NCBI Taxonomy repose sur une modélisation que
l’on appelle APG-III [APG, 2009]. Cette classification repose sur une catégorisation des
taxons par similitudes génétiques. Elle est par conséquent à différencier de la
classifica-tion Cronquist [Cronquist, 1981]. Cette dernière est fondée sur une catégorisation par
similitude phénotypique. Ces classifications sont, toutes deux, utilisées dans le domaine
de la biologie.
L’accès à la NCBI Taxonomy peut se faire de deux façons. La première est l’utilisation
d’une interface Web permettant la navigation dans la taxonomie suivant la hiérarchie de
taxons. La navigation peut être assistée par une interface d’interrogation par mots-clefs
(nommée ici Entrez)[Sayers, 2009]. Cette interface est utile d’un point de vue utilisateur,
puisqu’elle facilite l’accès à la taxonomie, même pour des utilisateurs non-informaticiens.
Par exemple ici,http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=
4567nous accédons à la page associée à "Triticum Durum", le blé dur. Néanmoins, un
des aspects qui nous intéresse est la ré-exploitation de cette source. Pour cela, il existe
aussi un format d’exportation de la taxonomie permettant de la manipuler directement.
Le NCBI propose un accès FTP à ses fichiers sources contenant la taxonomie dans son
intégralité
31.
Le modèle utilisé par cette source est une base de données. Chaque fichier représentant
une table, des identifiants sont utilisés dans ces fichiers pour faire le lien entre les fichiers. Le
format d’implémentation utilisé ici ressemble à du CSV
32[Shafranovich, 2005], à ceci près
que la virgule est remplacée par la suite de caractère "tabulation barre verticale tabulation".
La description détaillée de l’organisation des fichiers de la taxonomie est accessible à cette
adresseftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump_readme.txt. Nous pouvons
remarquer que beaucoup d’informations sont en relation avec le séquençage génétique des
organismes vivants. De plus, les termes utilisés pour désigner un organisme sont séparés
dans un deuxième fichier (names.dmp), le lien se faisant par un id unique. Il est possible
de découvrir les liens hiérarchiques entre taxons en utilisant l’attribut "parent tax_id" et
il est également possible d’identifier le rang taxonomique grâce à l’attribut "rank". La
division permet directement de filtrer les organismes vivants de type plante. De cette
manière, nous pouvons récupérer toute la taxonomie des plantes provenant de la NCBI
Taxonomy.
31. ftp://ftp.ncbi.nih.gov/pub/taxonomy
TaxRef
Contrairement à la NCBI Taxonomy, TaxRef est une taxonomie qui a vocation à
devenir un référentiel national[Gargominy et al., 2014]. Alimentée et administrée par le
MNHN
33, l’objectif de cette taxonomie est de répertorier tous les noms scientifiques et
synonymes pouvant permettre l’identification d’un organisme vivant en France. Après
avoir observé une augmentation du nombre d’organismes vivants et la prolifération des
référentiels existants, le MNHN a décidé de créer un référentiel national, en respectant la
nomenclature des différents référentiels internationaux déjà existants. De cette manière, le
partage des données concernant la taxonomie des organismes vivants devient plus simple,
non seulement en France mais aussi dans le monde entier. Pour alimenter cette taxonomie,
le MNHN réutilise différentes bases de données validées et officielles (WoRMS
34, base
Nadeaud
35, ...) mais aussi les publications scientifiques. Pour garantir leur statut de
référence et donc avoir une qualité optimum, ces réutilisations se font manuellement
par un ensemble d’experts. Comme cette source est une référence, seuls les taxons
définis dans la litérature scientifique sont considérés. Bien qu’un terme puisse ne pas
être considéré comme le taxon scientifique de l’organisme vivant, il se peut que, dans la
littérature scientifique, il soit couramment utilisé. De cette manière, il est renseigné dans
la taxonomie TaxRef. C’est pour cela que cette taxonomie comporte aussi bien des noms
vernaculaires
36que des noms scientifiques.
Le MNHN propose une interface Web pour parcourir la taxonomie à partir de requêtes
par mots-clefs. De cette manière, nous accédons à une page associée à l’organisme vivant
proposant un certain nombre d’informations, telles que les localisations de cultures ou
d’élevage, les différents termes associés et d’autres. Par exemple http://inpn.mnhn.
fr/espece/cd_nom/141978 la page associée au "Triticum Durum". Nous retrouvons
notamment sur cette page le nom vernaculaire associé à cette espèce : le blé d’Afrique.
De la même manière que pour la NCBI Taxonomy, il est intéressant de pouvoir manipuler
directement la taxonomie. C’est pour cette raison que, après une inscription et une
justification de l’utilisation de ce référentiel, un fichier est proposé au téléchargement
contenant la taxonomie
37.
Là encore, pour cette source, le modèle utilisé est la base de données. Pour simplifier
l’exploitation de cette taxonomie, le choix a été fait de renseigner tous les taxons dans
une seule table et de définir uniquement les valeurs possibles dans des tables associées
(c.f. figure8). L’implémentation de ce fichier est effectuée dans un format similaire au
CSV, mais séparant les valeurs par des caractères "|".
33. Muséum National d’Histoire Naturelle
34. World Register of Marins Species -http://marinespecies.org/
35. http://inpn.mnhn.fr/espece/inventaire/I220
36. "Nom vulgaire d’animal ou de végétal, par opposition aux noms qui suivent les règles de la nomenclature scientifique" -http://www.cnrtl.fr/definition/vernaculaire