• Aucun résultat trouvé

Nous avons au total un jeux de données de 600 upc dont 300 upc "bonnes" et 300 upc "mauvaises". L’algorithme va nous renvoyer des motifs permettant de discriminer ces deux classes.

Le résultat de l’algorithme est le suivant : ((’motif’),(’growth ratio’,’support’))

On va favoriser les motifs avec un ’relative growth ratio élevé’, inf signifie infini, ces motifs ne seront retrouvés que dans la classe 0 (les "mauvaises" upc) et un support élevé aussi qui va signifier qu’on retrouve ce motif dans beaucoup de lignes du jeu de données de la classe zéro. En se basant sur ces

Figure 17 – Résultats de l’algorithme de pattern mining

règles, le motif qui discrimine le mieux nos deux classes est donc la réserve utile basse (entre 0 et 40 mm) qui est vraie pour 243 upc des 300 que compte le jeu de données de la classe zéro. D’autres motifs reviennent souvent tels que le nombre d’exploitations bas (entre zéro et 2 exploitation par an). D’autres motifs plus complexes permettent aussi de discriminer ces deux classes tel RsurRU ’supérieur’, drain ’moyen’ et minéralisation ’moyen bas’.

Limites et discussion

Au début du stage, il a fallu faire face à un problème de stockage des données : en effet, on ne disposait pas d’une place attitrée pour stocker les 1.5 To de données. Le serveur lacodam à donc été mis à disposition pour réaliser ce stage, cependant il n’y avait pas assez d’espace pour stocker toutes les données. Deux disques dur SSD de type ext4 de 1To chacun on donc été rajoutés au serveur. Afin de faciliter le stockage des données ces disques dur on été fusionnés pour créer un volume logique de 2 To via le gestionnaire de volume logique LVM qui a donc servi à accueillir les données. L’autre difficulté rencontrée à été de configurer ce qu’on appelle "lexport display" qui consiste à se logguer à distance en mode graphique via une connexion ssh. En effet, il y avait la nécessité d’installer des logiciels à interface graphique (comme Talend) au même endroit que les données sur le volume logique. Nous avons eu d’autres problèmes concernant l’insertion des données brutes dans la base de donnée ce qui explique que cette base est encore incomplète à cause du temps d’exécution des scripts R et du fait que le processus est très gourmand en mémoire vive. En effet, plus la base de données est grande, plus le temps d’insertion des données augmente. A la place d’avoir un temps d’insertion linéaire, il avait plus l’air d’être exponentiel (voir annexe 3). A ce jour, nous ne savons pas encore comment régler ce problème, il vient peut être de la façon que à R d’insérer des données dans la base de donnée.

Conclusion et perspectives

Nous avons donc pu mettre en place une structure adaptée à une grande quantité de données agrono-miques permettant de faciliter l’exploration et la visualisation de ces données. L’entrepôt de données est fonctionnel et repose sur deux dimensions : spatiale et temporelle avec une granularité fine qui permet d’interroger les données de façon précise ou plus large. De plus, l’entrepôt dispose d’une vi-sualisation facilitée à l’aide de l’application R shiny qui récupère directement les données agrégées à partir de notre entrepôt. La fouille de motifs réalisée par la suite a permis d’extraire encore un peu plus de connaissances à partir des données. Par la suite, il faudra se concentrer sur différents points dont l’insertion des données brutes dans la base de données qui a pris plus de temps que initialement prévu et, devra être complétée. Il faudra aussi chercher de nouvelles dimensions pour améliorer l’en-trepôt de données puis créer de nouvelles tables de données agrégées. Pour le moment, on ne s’est concentré que sur deux mesures de la table de faits : l’azote exporté et le lessivage du nitrate, mais il faudra réaliser des tables de données agrégées pour les autres mesures de la table de faits. Il reste aussi à améliorer l’outil R shiny pour faciliter la visualisation des données agrégées. Il faudra enfin se focaliser sur la fouille de motifs qui va pouvoir nous aider à mieux interpréter les données.

Bibliographie

[1] Nadine Brisson, Christian Gary, Eric Justes, R. Roche, Bruno Mary, Dominique Ripoche, Daniel Zimmer, Jorge Sierra, Patrick Bertuzzi, P. Burger, François Bussière, Yves-Marie Cabidoche, Pierre Cellier, Philippe Debaeke, P. Gaudillere J., Catherine Hénault, Florent Maraux, Bernard Seguin, and Hervé Sinoquet. An overview of the crop model STICS. European Journal of Agronomy, 2003.

[2] Anne-Isabelle Graux, Luc Delaby, Jean-Louis Peyraud, Eric Casellas, Philippe Faverdin, Chris-tine Le Bas, Anne Meillet, Thomas Poméon, Helene Raynal, Rémi Resmond, Dominique Ri-poche, Francoise Ruget, Olivier Therond, and Francoise Vertes. Les prairies françaises : produc-tion, exportation d’azote et risques de lessivage. Research Report, Ministère de l’Alimentaproduc-tion, l’Agriculture et de la Forêt, 2017.

[3] Tassadit Bouadi, Marie-Odile Cordier, Pierre Moreau, René Quiniou, Jordy Salmon-Monviola, and Chantal Gascuel-Odoux. A data warehouse to explore multidimensional simulated data from a spatially distributed agro-hydrological model to improve catchment nitrogen manage-ment. Environmental Modelling & Software, 97 :229–242, November 2017.

[4] Nadine Brisson, Françoise Ruget, Philippe Gate, Josiane Lorgeou, Bernard Nicoullaud, Xavier Tayot, Daniel Plenet, Marie-Hélène Jeuffroy, Alain Bouthier, Dominique Ripoche, Bruno Mary, and Eric Justes. STICS : a generic model for simulating crops and their water and nitrogen balances. II. Model validation for wheat and maize. Agronomie, 22(1) :69–92, January 2002. [5] Nadine Brisson, Bruno Mary, Dominique Ripoche, Marie Hélène Jeuffroy, Francoise Ruget,

Ber-nard Nicoullaud, Philippe Gate, Florence Devienne-Barret, Rodrigo ANTONIOLETTI, Carolyne Durr, Guy Richard, Nicolas Beaudoin, Sylvie Recous, Xavier Tayot, Daniel Plenet, Pierre Cellier, Jean-Marie Machet, Jean Marc Meynard, and Richard Delécolle. STICS : a generic model for the simulation of crops and their water and nitrogen balances. I. Theory and parameterization applied to wheat and corn. Agronomie, 18(5-6) :311–346, 1998.

[6] Francoise Ruget, S. Novak, and S. Granger. Du modèle STICS au système ISOP pour estimer la production fourragère. Adaptation à la prairie, application spatialisée. Fourrages (186), 241-256. (2006), 2006.

[7] J. E. Bergez, H. Raynal, M. Launay, N. Beaudoin, E. Casellas, J. Caubel, P. Chabrier, E. Coucheney, J. Dury, I. Garcia de Cortazar-Atauri, E. Justes, B. Mary, D. Ripoche, and F. Ruget. Evolution of the STICS crop model to tackle new environmental issues : New formalisms and integration in the modelling and simulation platform RECORD. Environmental Modelling & Software, 62 :370– 384, December 2014.

[8] Daniel Joly, Thierry Brossard, Hervé Cardot, Jean Cavailhes, Mohamed Hilal, and Pierre Wa-vresky. Les types de climats en France, une construction spatiale. Cybergeo : European Journal of Geography, June 2010.

[9] Cécile Favre, Fadila Bentayeb, Omar Boussaid, Jérôme Darmont, Gérald Gavin, Nouria Harbi, Nadia Kabachi, and Sabine Loudcher. Les entrepôts de données pour les nuls. . . ou pas! In 2e Atelier aIde à la Décision à tous les Etages (EGC/AIDE 2013), Toulouse, France, January 2013. [10] Conception d’un entrepôt de données.

[11] Data Integration : Concepts and Principles • Talend Data Integration Studio User Guide • Reader • Welcome to Talend Help Center.

[12] Tassadit Bouadi. Analyse multidimensionnelle interactive de résultats de simulation. Aide à la décision dans le domaine de l’agroécologie. November 2013.

[13] EXMOTIF : efficient structured motif extraction | Algorithms for Molecular Biology | Full Text. [14] mine_discriminative_patterns.py · master · GALARRAGA DEL PRADO Luis / cpxr.

[15] Alexandre Termier. Pattern mining rock : more, faster, better. 2013.

[16] HYdraulic PRoperties of European Soils updates | Natural Resource Datasets | The James Hutton Institute.

Résumé

Au vu de la croissance exponentielle des données agronomiques simulées, par des modèles mis en place pour aider l’agriculture de demain, il a fallu mettre en place de nouveaux moyens pour sto-cker, interroger et exploiter ces données. Les entrepôts de données bien qu’encore peu présents dans le domaine de l’agriculture semblent apporter une solution intéressante pour stocker nos données agronomiques. Ces données sont issues d’une étude sur les prairies françaises [2]. Notre étude se base sur un travail préalable conduit par Tassadit Baoudi sur un entrepôt de données agro-hydrologiques générées par simulation [3]. Dans un premier temps le travail s’est concentré sur la base de don-nées : la structure était déjà existante mais il a fallu procéder à son remplissage et créer un espace de stockage suffisant pour accueillir les données brutes et la base de données. Ensuite, il a fallu faire évoluer cette base de données en entrepôt de données adapté au caractère spatio-temporel des ré-sultats de simulation. Un outil interactif implémenté en R shiny a également été déployé; ainsi une interface ergonomique a été produite afin de faciliter l’accessibilité et la visualisation des données, notamment par l’intermédiaire de graphiques. Enfin, les questions agronomiques plus poussées ont été résolues à l’aide de méthodes de data mining qui ont permis d’extraire des connaissances à partir de ces grandes quantités de données. Le stage a donc permis de mettre en place une structure adap-tée à une grande quantité de données agronomiques permettant ainsi d’en faciliter l’exploration et la visualisation. La fouille de motifs réalisée par la suite a finalement permis d’extraire encore un peu plus de connaissances à partir des données.

Abstract

Given the exponential growth of simulated agronomic data, generated by models established so as to help the agriculture of tomorrow, it was necessary to put in place new ways to store, query and exploit these data. Although data warehouses are still not very present in the field of agriculture, they seem to offer an interesting solution for storing our agronomic data. These data come from a study on the French meadows [2]. Our study is based on a preliminary work conducted by Tassadit Baoudi on a data warehouse using simulated agro-hydrological data [3]. At first our work focused on the database, the structure was already existant, however we had to fill it and create enough storage space to accommodate the raw data and the database. Then, we moved this database to a data warehouse adapted to the spatio-temporal nature of the simulation results. An interactive tool implemented in R shiny has been deployed. An ergonomic interface has been produced to facili-tate data accessibility and visualization, particularly through graphics. Then, some more advanced agronomic questions have been solved using data mining methods that can extract knowledge from large amounts of data. We have therefore been able to set up a structure adapted to a large amount of agronomic data and facilitating the exploration and visualization of these data. The pattern mining allowed us to extract a little more knowledge from the data.

Annexe 1 : Autres visualisations de

l’interface

Figure 18 – Évolution journalière du lessivage de l’azote pour la troisième décade du mois de no-vembre de l’année 1984

Annexe 2 : Partie sur les questions

agronomiques

Annexe 3 : Temps d’insertion dans la base

de données

Figure 21 – Temps d’exécution du script R de la table run has time sans insertion dans la base de donnée

Le temps de traitement est bien linéaire.

Figure 22 – Temps d’exécution du script R de la table run has time avec insertion dans la base de donnée

Documents relatifs