• Aucun résultat trouvé

2.4 Types de sources agricoles

2.4.1 Taxonomies

Le terme "taxonomie" provient du mot grecque "taxinomia" qui est composé du

terme "taxis" (classement) et du terme "nomos" (loi). Le terme est apparu en 1863

dans l’ouvrage "Théorie élémentaire de la botanique ou exposition des principes de la

classification naturelle et de l’art de décrire et d’étudier les végétaux" [de Candolle, 1813]

écrit par Augustin Pyrame de Candolle. Initialement, une taxonomie était consacrée au

recensement et à la catégorisation des organismes vivants. De nos jours, une taxonomie

peut permettre la catégorisation d’autres domaines.

Dans ce manuscrit, nous considérerons qu’une taxonomie est le classement des êtres

vivants. Elle permet de représenter chaque catégorie d’être vivant sous la forme de taxons

avec des liens hiérarchiques entre taxons. Un taxon représente une catégorie d’être vivant

plus ou moins spécifique. Ce taxon peut être désigné par plusieurs termes.

NCBI Taxonomy

Un exemple de taxonomie utilisée dans le domaine de l’agrnomie est la NCBI Taxonomy

28

.

Cette taxonomie n’est pas uniquement consacrée à la catégorisation des types de cultures

mais aussi à la catégorisation de tous les êtres vivants associés à des séquençages d’ADN.

Elle contient un très grand nombre de taxons (457.110). Historiquement, le NCBI avait

pour mission de récolter et de référencer le séquençage de fragments d’ADN. Les outils de

séquençage de fragments d’ADN se sont particulièrement développés au début des années

1990. En raison de la quantité de plus en plus grande de résultats de séquençage à stocker,

des bases de données ont été mises en place pour centraliser ces séquençages. NCBI est

l’organisme qui a été en charge du développement et du maintien de la base de données

sur le continent nord américain. L’équivalent a été mis en place en Europe par l’EBI

29

,

mais l’EBI ne maintient pas de taxonomie. Afin de catégoriser les êtres vivants associés

aux différents séquençages d’ADN, le NCBI a réutilisé sa base de données des génomes

(GenBank

30

) pour créer et maintenir à jour sa taxonomie des organismes vivants. La

taxonomie du NCBI est devenue incontournable dans le domaine de la biologie. Bien

que le NCBI précise que leur taxonomie n’a pas vocation à devenir un référentiel dans le

28. The National Center for Biotechnology Information -http://www.ncbi.nlm.nih.gov/taxonomy

29. European Bioinformatics Institute -https://www.ebi.ac.uk

NCBI Taxonomy

Type de source Taxonomie

Modèle Base de données

Implémentation TSV

Table 1 – Caractéristiques de NCBI Taxonomie

domaine du vivant, dans la pratique, les experts du domaine font souvent référence à

cette taxonomie, à défaut d’en avoir une qui soit exhaustive.

De par son lien avec GenBank, NCBI Taxonomy repose sur une modélisation que

l’on appelle APG-III [APG, 2009]. Cette classification repose sur une catégorisation des

taxons par similitudes génétiques. Elle est par conséquent à différencier de la

classifica-tion Cronquist [Cronquist, 1981]. Cette dernière est fondée sur une catégorisation par

similitude phénotypique. Ces classifications sont, toutes deux, utilisées dans le domaine

de la biologie.

L’accès à la NCBI Taxonomy peut se faire de deux façons. La première est l’utilisation

d’une interface Web permettant la navigation dans la taxonomie suivant la hiérarchie de

taxons. La navigation peut être assistée par une interface d’interrogation par mots-clefs

(nommée ici Entrez)[Sayers, 2009]. Cette interface est utile d’un point de vue utilisateur,

puisqu’elle facilite l’accès à la taxonomie, même pour des utilisateurs non-informaticiens.

Par exemple ici,http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=

4567nous accédons à la page associée à "Triticum Durum", le blé dur. Néanmoins, un

des aspects qui nous intéresse est la ré-exploitation de cette source. Pour cela, il existe

aussi un format d’exportation de la taxonomie permettant de la manipuler directement.

Le NCBI propose un accès FTP à ses fichiers sources contenant la taxonomie dans son

intégralité

31

.

Le modèle utilisé par cette source est une base de données. Chaque fichier représentant

une table, des identifiants sont utilisés dans ces fichiers pour faire le lien entre les fichiers. Le

format d’implémentation utilisé ici ressemble à du CSV

32

[Shafranovich, 2005], à ceci près

que la virgule est remplacée par la suite de caractère "tabulation barre verticale tabulation".

La description détaillée de l’organisation des fichiers de la taxonomie est accessible à cette

adresseftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump_readme.txt. Nous pouvons

remarquer que beaucoup d’informations sont en relation avec le séquençage génétique des

organismes vivants. De plus, les termes utilisés pour désigner un organisme sont séparés

dans un deuxième fichier (names.dmp), le lien se faisant par un id unique. Il est possible

de découvrir les liens hiérarchiques entre taxons en utilisant l’attribut "parent tax_id" et

il est également possible d’identifier le rang taxonomique grâce à l’attribut "rank". La

division permet directement de filtrer les organismes vivants de type plante. De cette

manière, nous pouvons récupérer toute la taxonomie des plantes provenant de la NCBI

Taxonomy.

31. ftp://ftp.ncbi.nih.gov/pub/taxonomy

TaxRef

Contrairement à la NCBI Taxonomy, TaxRef est une taxonomie qui a vocation à

devenir un référentiel national[Gargominy et al., 2014]. Alimentée et administrée par le

MNHN

33

, l’objectif de cette taxonomie est de répertorier tous les noms scientifiques et

synonymes pouvant permettre l’identification d’un organisme vivant en France. Après

avoir observé une augmentation du nombre d’organismes vivants et la prolifération des

référentiels existants, le MNHN a décidé de créer un référentiel national, en respectant la

nomenclature des différents référentiels internationaux déjà existants. De cette manière, le

partage des données concernant la taxonomie des organismes vivants devient plus simple,

non seulement en France mais aussi dans le monde entier. Pour alimenter cette taxonomie,

le MNHN réutilise différentes bases de données validées et officielles (WoRMS

34

, base

Nadeaud

35

, ...) mais aussi les publications scientifiques. Pour garantir leur statut de

référence et donc avoir une qualité optimum, ces réutilisations se font manuellement

par un ensemble d’experts. Comme cette source est une référence, seuls les taxons

définis dans la litérature scientifique sont considérés. Bien qu’un terme puisse ne pas

être considéré comme le taxon scientifique de l’organisme vivant, il se peut que, dans la

littérature scientifique, il soit couramment utilisé. De cette manière, il est renseigné dans

la taxonomie TaxRef. C’est pour cela que cette taxonomie comporte aussi bien des noms

vernaculaires

36

que des noms scientifiques.

Le MNHN propose une interface Web pour parcourir la taxonomie à partir de requêtes

par mots-clefs. De cette manière, nous accédons à une page associée à l’organisme vivant

proposant un certain nombre d’informations, telles que les localisations de cultures ou

d’élevage, les différents termes associés et d’autres. Par exemple http://inpn.mnhn.

fr/espece/cd_nom/141978 la page associée au "Triticum Durum". Nous retrouvons

notamment sur cette page le nom vernaculaire associé à cette espèce : le blé d’Afrique.

De la même manière que pour la NCBI Taxonomy, il est intéressant de pouvoir manipuler

directement la taxonomie. C’est pour cette raison que, après une inscription et une

justification de l’utilisation de ce référentiel, un fichier est proposé au téléchargement

contenant la taxonomie

37

.

Là encore, pour cette source, le modèle utilisé est la base de données. Pour simplifier

l’exploitation de cette taxonomie, le choix a été fait de renseigner tous les taxons dans

une seule table et de définir uniquement les valeurs possibles dans des tables associées

(c.f. figure8). L’implémentation de ce fichier est effectuée dans un format similaire au

CSV, mais séparant les valeurs par des caractères "|".

33. Muséum National d’Histoire Naturelle

34. World Register of Marins Species -http://marinespecies.org/

35. http://inpn.mnhn.fr/espece/inventaire/I220

36. "Nom vulgaire d’animal ou de végétal, par opposition aux noms qui suivent les règles de la nomenclature scientifique" -http://www.cnrtl.fr/definition/vernaculaire

Figure8 – Modèle des données de la taxonomie TaxRef

TaxRef

Type de source Taxonomie

Modèle Base de données

Implémentation Valeurs séparées par "|"

Figure 9 – Structure d’un thésaurus ISO 2788