Bases de données relationnelles - Types de sources agricoles

2.4 Types de sources agricoles

2.4.3 Bases de données relationnelles

La notion de bases de données relationnelles (BDR) est apparue en 1970 [Codd, 1970]. Une BDR est une base de données exploitant la théorie de l’algèbre relationnelle. Dans ce modèle une table est une "relation" (au sens de l’algèbre relationnelle). Les données sont organisées en différentes tables (ou relations) reliées entre-elles par des relations.

Nous considérons l’étude d’une BDR comme type de source. Néanmoins, les BDR peuvent aussi être un modèle pour un autre type de sources. En d’autres termes, une BDR peut être utilisée pour représenter un autre type de source comme un thésaurus par exemple. Mais elle peut aussi, dans certains cas, être un type de source à part entière. C’est notamment le cas lorsque nous souhaitons exploiter la modélisation d’une BDR.

BDR Arvalis

Nous avons évoqué précédemment les Bulletins de Santé du Végétal (BSV) dans lesquels sont présentées des alertes agricoles à des fins de protection des cultures en France. Ces BSV s’appuient sur la base de données Arvalis. Le type de cette source est donc une base de données, le modèle utilisé est la base de données relationnelle (BDR) et le format d’implémentation est CSV. Cette BDR contient toutes les observations sur les cultures. Ces observations contiennent non seulement la culture attaquée, l’agresseur et la date de l’agression, mais aussi le stade de développement de la culture, l’identité de l’observateur, le niveau de risques, etc. Nous pouvons voir sur la figure11l’ensemble des caractéristiques enregistrées pour chaque observation.

Un des intérêts de cette base de données (autre que le regroupement des données concernant les observations d’attaques) est l’absence de recommandations pour permettre d’éviter les traitements dits automatiques. Les alertes agricoles ne sont là que pour avertir l’agriculteur d’un risque d’attaque de bio-agresseurs dans sa culture, mais ne donnent aucune indication sur la façon de lutter contre ces agresseurs. Précédemment, les observations étaient faites par des producteurs de produits phytosanitaires préconisant systématiquement leurs produits. Grâce à la base de données Arvalis, et aux BSV de manière générale, les agriculteurs peuvent être informés des risques sans être orientés automatiquement sur un produit phytosanitaire.

2.4.4. Base de connaissances

Comme vu précédemment, Agrovoc a fait le choix d’utiliser SKOS comme formalisme pour se placer sur le Web de données liées. Pour étendre le vocabulaire utilisé afin de

Arvalis

Type de source Base de données

Modèle BDR

Implémentation CSV

Table 4 – Caractéristiques de la BDR Arvalis

désambiguïser certaines relations, une ontologie a été définie. La définition d’une ontologie (Cf. section 1.2.3 du chapitreI) pose le vocabulaire qui sera utilisé pour décrire des faits

formant une base de connaissances.

AgroPortal

Les bases de connaissances présentes sur le Web de données liées ne sont pas indexées par un moteur de recherche classique. Il est donc plus difficile de trouver une base de connaissances adaptée à nos besoins que de trouver un document indexé. Néanmoins, certains travaux essaient de pallier ce problème. Nous pouvons citer en particulier AgroPortal⁴⁶[Jonquet et al., 2015a] qui propose une plate-forme permettant d’entreposer des bases de connaissances en rapport avec le domaine de l’agronomie.

Cette plate-forme, qui utilise la technologie de la plate-forme BioPortal [Noy et al., 2009,

Jonquet et al., 2015b], permet non seulement de stocker des bases de connaissances mais aussi tous jeux de données au format RDF. Cet entrepôt permet un stockage pérenne, ainsi qu’une annotation de ces jeux de données afin de pouvoir les retrouver à partir d’une requête par mots-clefs.

Nous avons alors utilisé ce portail pour chercher des bases de connaissances adaptées à nos besoins, deux se sont révélées pertinentes.

Plant Ontology

La Plant Ontology (PO) [Avraham et al., 2008] a pour objectif de fixer un vocabulaire commun concernant la génétique des plantes. Cette ontologie est donc orientée sur la formalisation de la connaissance des gènes des plantes, mais aussi des différents stades de développement et des caractéristiques phénotypiques⁴⁷ de celles-ci.

La PO est en fait un regroupement de plusieurs ontologies décrivant des caractéristiques différentes des plantes (génotypiques ou phénotypiques, par exemple). Historiquement, la PO a été formalisée sous un format OBO⁴⁸. Ce format est proche de celui utilisé pour les ontologies telles que nous les définissons dans ce manuscrit (Cf. section1.2.3 du chapitreI). Ce format OBO est utilisé dans le domaine de la biologie et de l’agronomie pour représenter des connaissances. Il est néanmoins de moins en moins utilisé au profit du format OWL. La PO est disponible avec le modèle OBO.

46. http://agroportal.lirmm.fr/

47. d’apparence physique

Figure 12 – Sous parti de The Plant Ontology (relation "I" : is_a, relation "P" : part_of) Plant Ontology

Type de source Base de connaissances

Modèle OBO

Implémentation OBO Flat File⁴⁹

Table 5 – Caractéristiques de la Plant Ontology

Le développement de cette ontologie a débuté en 2002 en réutilisant des bases de données existantes concernant les détails phénotypiques du riz et du maïs. La Plant Ontology Consortium (POC) a ensuite mis en place un système de mise à jour communautaire pour cette ontologie. Les utilisateurs peuvent proposer des améliorations ou des modifications de l’ontologie, qui sont ensuite validées par le consortium avant d’être ajoutées dans l’ontologie. De cette manière, l’ontologie a évolué pour intégrer des connaissances pour d’autres genres de plantes.

La figure 12 montre une sous-partie de la PO qui présente la modélisation pour la structure d’une plante.

Crop Ontology

Le développement de la Crop Ontology (CO)[Shrestha et al., 2010] a débuté en 2010 par la Generation Challenge Programme⁵⁰. L’objectif de ce programme est de permettre l’amélioration des conditions de culture pour les agriculteurs en milieu difficile comme par exemple les regions arides. La CO participe à cet objectif en proposant un vocabulaire

Crop Ontology Type de source Base de connaissances

Modèle OBO

Implémentation OBO Flat File

Table 6 – Caractéristiques de la Crop Ontology

commun entre les différents acteurs de ce programme, afin de partager des informations concernant les cultures. Il est par exemple possible de catégoriser des mesures dans les cultures et de croiser ces mesures avec d’autres.

La CO se concentre sur la représentation des connaissances concernant le phénotype et l’anatomie des plantes. Elle permet aussi de faire le lien avec des données de mesures effectuées dans les cultures. Le génotype des cultures est aussi présent dans la CO afin de pouvoir faire le lien entre le phénotype, une observation et le gène impliqué. Le modèle utilisé dans cette source est OBO avec RDF comme format d’implémentation.

L’avantage de cette ontologie est son accès simplifié par un des Web services disponibles pour rechercher des éléments⁵¹. Cette API permet d’imaginer de nombreuses applications possibles pour la réutilisation de cette ontologie afin d’améliorer l’analyse des cultures.

Toujours dans l’objectif de faciliter la manipulation, une interface Web est aussi proposée afin d’annoter automatiquement des documents au format CSV⁵² avec la CO.

DBPedia

DBPedia⁵³[Auer et al., 2007] est une base de connaissances fondée sur l’exportation de données extraites de Wikipedia⁵⁴. Partant du constat que Wikipedia est une source contenant un nombre important d’informations à jour, le projet DBPedia a pour objectif de transformer ces informations en une base de connaissances. Pour cela, les auteurs de DBPedia exploitent le contenu de ce que l’on appelle des infobox, qui sont les tableaux situés à droite des pages Wikipedia contenant des données. De cette manière, l’extraction de triplets est simplifiée et la base de connaissances DBPedia peut être enrichie facilement. Le modèle choisi pour représenter cette base de connaissances est OWL et le format d’implémentation est RDF.

Nous pouvons observer sur la figure 13une partie de l’infobox de la page "Triticum Durum"⁵⁵de Wikipedia. La hiérarchie taxonomique liée au blé dur peut donc être extraite à partir de cette infobox sous une forme de triplets pouvant venir enrichir DBPedia. Le résultat est disponible à cette adresse : http://dbpedia.org/page/Durum.

La base de connaissances DBPedia est, à l’heure actuelle, largement utilisée comme référence pour l’alignement. Toutes les bases de connaissances essaient d’être alignées

51. http://www.cropontology.org/api

52. Coma Separated Value -https://fr.wikipedia.org/wiki/Comma-separated_values

53. http://dbpedia.org/

54. https://fr.wikipedia.org/

DBPedia

Type de source Base de connaissances

Modèle OWL

Implémentation RDF

Table 7 – Caractéristiques de DBPedia

avec DBPedia afin de l’utiliser comme pont entre les différentes sources. L’avantage de cette source est qu’elle contient énormément d’individus sur un très grand nombre de domaines. Néanmoins, la politique de Wikipedia suivant le principe participatif et l’auto-correction par la communauté, un certain nombre d’erreurs et d’approximations peuvent apparaître.

Dans le document Vers un système intelligent de capitalisation de connaissances pour l'agriculture durable : construction d'ontologies agricoles par transformation de sources existantes (Page 40-45)