• Aucun résultat trouvé

Comme on a pu le voir dans la partie sur teruti-miner, ce logiciel `a l’avantage de pouvoir extraire des informations sous la forme d’un seul tableau pour diff´erentes r´egions. Cela permet apr`es de les traiter avec des outils statistiques afin de comparer les diff´erentes r´egions entre elles. Cette fonctionnalit´e est tr`es pratique et permet aux agronomes de gagner beaucoup de temps. Par exemple Ying doit comparer 430 r´egions agricoles. Imaginez qu’elle doit faire une extraction pour chaque r´egion agricole puis tout rassembler `a l’aide d’un module visual basic sous Excel.

Teruti-miner le permet d´ej`a pour du d´enombrement. L’int´erˆet d’int´egrer cette fonctionnalit´e `a Carot- tAge est double. En effet selon le mod`ele choisi CarottAge permet de faire aussi du d´enombrement mais ´egalement d’autres types d’analyses plus pouss´ees. L’autre interˆet est d’obtenir un seul logciel pour tout faire au lieu de deux.

Cr´eation de lwtInra2

Pour automatiser ces extractions Jean-Franc¸ois a cr´e´e un premier ex´ecutable lwtInra. Cet ex´ecutable prend un bon nombre de param`etres. On peut compter parmi eux le fichier de donn´ees, le fichier d’indices, le fichier descriptif du mod`ele, des param`etres propres `a fwtInra comme -n 2 et -p 0.95 qui permettent de d´efinir le nombre d’it´erations et la pr´ecision de l’´etude, le r´epertoire o`u ´ecrire les r´esultats, un fichier de sortie avec -o, et enfin un nouveau type de fichier les .flt .

Ce fichier flt sert `a indiquer les filtres choisis. Ce fichier contient une ligne par extraction, chaque extrac- tion correspond `a une r´egion agricole consid´er´ee. Chaque ligne est construite de la mani`ere suivante :

nomFichierResultat : numeroColonne : valeursFiltre

Les valeurs de filtre sont ´etudi´ees car on peut indiquer plusieurs valeurs `a l’aide de virgules ou de tirets, par exemple pour dire les r´egions 4, 5, 6, 7, 8, 9, et 10 on peut ´ecrire simplement 4,5,6,7,8,9,10 ou bien 4-10.

LwtInra utilise FwtInra dans une boucle qui va parcourir les lignes de filtre du fichier flt. On peut extraire deux types de valeurs du mod`eles de Markov. Les probabilit´es des transitions d’un n-uplet d’un ´etat `a un autre, ou les probabilit´es des n-uplets `a un ´etat pr´ecis. L’ex´ecutable ´ecrit les transitions dans le nom fichier de sortie, donn´e avec le -o et les probabilit´es des n-uplets `a un ´etat sont ´ecrites dans les fichiers donn´es dans la premi`ere colonne du fichier flt.

Mon but ´etant de cr´eer une grande matrice csv des probilit´es des n-plets de chaque ´etat et pour chaque r´egion. Cette matrice doit ˆetre pr´esent´ee sous la forme :

0 1 2 4 8 22 45

RA Etat bl´e orge colza sols Batis prairies rivi`eres feuillus 307 2 0.23 0.10 0.15 .01146 0.00005 0.2465 0.15885 307 3 0.8541 0.0814 0 0.02 3 0.00145 0.0455 314 2 0.14565 0.45831 0.321 0.812 0 0 0 314 3 0.2151 0.00515 0.4531 0 0.0115 0.2551 0.8456 all 2 0.18566 0.1518 0713 0.1512 0.081 0.01875 0.015 all 3 0.1452 0.18641 0.248541 0.5161 0.000018556 0.1 15515 0.0019

Il aurait ´et´e tr`es compliqu´e d’utliser les fichiers de sortie nomm´es dans le .flt car les valeurs sont tri´ees et donc ne sont pas dans le mˆeme ordre. Ainsi j’ai pr´ef´er´e reprendre le code de lwtInra et cr´eer de nouvelles fonctions d’´ecriture dans la structure de donn´ees qui repr´esente une r´egion agricole. J’ai donc cr´e´e un nouvel ex´ecutable LwtInra2 qui utilise ces fonctions d’´ecriture pour cr´eer la matrice csv. J’utilise le fichier de sortie du -o pour ´ecrire la matrice. Les noms de fichiers ´ecrits dans le .flt sont donc devenus obsol`etes.

Int´egration du service `a carottAge

Il a fallu ensuite int´egrer cet ex´ecutable `a CarottAge. Pour respecter l’architecture client/serveur de Ca- rottAge l’ex´ecutable a ´et´e plac´e sur le serveur et j’y fais appel dans l’onglet d’apprentissage. Ainsi lorsqu’on clique sur le bouton pour lancer l’apprentissage on va d’abord regarder si un filtre a ´et´e d´efini dans l’onglet de donn´ees. Si oui alors on cr´e´e le fichier flt automatiquement `a partir de ce filtre, on l’envoie au serveur, on envoie une requˆete pour LwtInra2 au lieu de FwtInra et on attend de recevoir la matrice.

Lorsque la matrice est rec¸ue l’utilisateur est pr´evenu par une boite de dialogue qui rappelle le nom du fichier de la matrice. L’utilisateur n’a donc plus qu’`a aller dans son workspace et l’ouvrir `a l’aide d’un ta- bleur. Etant donn´e que l’on rec¸oit une matrice csv et non un fichier descriptif de Hmm, il est alors impossible d’utiliser les fonctions d’affichage de diagrammes et de visualisation sous forme de texte.

5

Perspectives d’am´eliorations

5.1

Fonctionnalit´es

Imprimer les transitions

Comme on a pu le constater dans la partie pr´ec´edente le fichier de sortie de LwtInra2 n’imprime plus les transitions. Or, au cours de la derni`ere r´eunion, il s’est av´er´e que ces valeurs ´etaient tr`es int´eressantes car elles pourraient permettre de pr´evoir l’utilisation future des sols. Ces valeurs sont d´ej`a repr´esent´ees dans les diagrammes mais une ´etude plus pouss´ee des chiffres serait n´ecessaire et d’autre part ces diagrammes ne fournissent pas les valeurs de mani`ere arithm´etique.

LwtInra est cens´e pouvoir le faire mais apr`es plusieurs essais avec Davide nous n’avons jamais r´eussi `a trouver le fichier de sortie contenant les transitions. Ainsi cr´eer un tableau des transitions pour plusieurs r´egions, comme le fait lwtInra2 avec les probabilit´es de n-uplets `a un ´etat, est `a la fin de mon stage le prochain objectif majeur de CarottAge.

R´egions complexes

Le syst`eme de filtre donne la liste des valeurs pour la colonne choisie et l’utilisateur peut choisir d’´etudier la r´egion 307 avec la 314. Mais imaginons qu’il veuille ´etudier l’ensemble de r´egions (307-314). L’utili- sateur est oblig´e de choisir 307 et 314, il obtiendra deux ´etudes parasites la 307 et la 314, puis l’´etude souhait´ee dans la partieall. Ce n’est d´ej`a pas super mais imaginons maintenant qu’il souhaite comparer

le groupe de r´egions (307-314) avec le groupe (303-304) il est alors oblig´e de faire deux fois la manipulation pr´ec´edente et cr´eer un nouveau fichier dans lequel il copiera les r´esultatsalldes deux fichiers obtenus.

Or le pricipe de lwtInra est justement d’´eviter toutes ces manipulations.

Ce probl`eme n’a ´et´e soulev´e qu’`a la toute fin de mon stage lors de cette mˆeme r´eunion. Une solution consiste `a utiliser le mˆeme principe que pour l’ajout de gabarit dans l’onglet mod`ele. C’est `a dire que l’on

propose la liste des r´egions avec deux boutons, ok et ajouter une extraction. Ainsi l’utilisateur

pourra pour comparer (307,314) et (303,304) cochez 307 et 314, puis cliquer surajouter une extraction,

puis cocher 303 et 304 et enfin cliquer sur ok. Le probl`eme est pour les extractions de 430 r´egions

ind´ependamment les unes des autres car il va falloir cocher la premi`ere r´egion puis ajouter une extraction 430 fois. Ce probl`eme sera `a ´etudier si le cas du paragraphe pr´ec´edent se pr´esente r´eguli`erement.

5.2

Ergonomie

Diagramme

Pour les longueurs de successions de culture sup´erieures `a 1 afficher les intervalles d’ann´ee en abscisse au lieu de l’ann´ee de d´epart comme cela est conc¸u actuellement.

Permettre d’enregistrer les diagrammes avec une r´esolution choisie par l’utilisateur afin qu’il puisse l’adapter `a sa publication. Cela s’inscrit toujours dans le but de limiter les manipulations des r´esultats cr´e´es par le logiciel.

Beaucoup de messages sont envoy´es `a l’utilisateur sous forme de boˆıtes de dialogue. L’id´ee serait d’af- ficher beaucoup plus d’informations mais dans la barre de statuts afin que l’utilisateur puisse avoir acc`es `a toutes les informations notamment dans les ´echanges entre le client et le serveur et ne garder les boˆıtes de dialogues que pour les messages d’erreurs critiques.

Dans le fichier de configuration on d´efinit chaque ´el´ement avec le code qui le repr´esente dans le fichier de donn´ees. Ces entit´es sont regroup´es selon les besoins par exemple le groupe eau va contenir rivi`eres, fleuves, lacs et glaciers car d’un point de vue des successions de culture cela n’a pas d’importance que ce soit une rivi`ere ou un fleuve. Par contre le groupe bl´e ne contiendra que le bl´e et ne sera pas dans un groupe c´er´eales car c’est tr`es important de savoir si la culture est du bl´e ou du ma¨ıs. Dans l’onglet mod`ele on choisit les entit´es que l’on souhaite, or quand on en s´electionne une cela est trait´e comme si on avait s´electionn´e tout le groupe. Il serait donc plus logique d’afficher le choix des groupes au lieu des entit´es pour d´efinir les gabarits.

5.3

Fiabilit´e

Une erreur a ´et´e soulev´ee dans les diagrammes. En effet il est cens´e y avoir autant de colonnes que d’ann´ees dans le cas normal, autant de colonnes que le nombre d’ann´ees - (n-1) pour les n-uplets ou n est longueur des successions de cultures. Or il s’est av´er´e que mˆeme pour n = 3, donc une longueur de trois ans il y avait toujours autant de colonnes que d’ann´ees, soit deux colonnes de trop.

L’utilisateur peut obtenir des r´esultats faux sans s’en rendre compte. En effet imaginons que l’utilisateur ait d´ej`a fait une ´etude et donc d´efini un mod`ele. Maintenant il souhaite refaire l’´etude suivant un mod`ele diff´erent, il va donc cr´eer son nouveau mod`ele. Il peut relancer directement la derni`ere ´etape sans passer par Editmodel car pour le logiciel il a d´ej`a un mod`ele ´edit´e qui est celui de la premi`ere ´etude. Ainsi il serait pr´ef´erable de remplacer le syst`eme de verrou actuel qui empˆeche de passer `a l’´etape suivante si l’´etape pr´ec´edente n’a jamais ´et´e valid´ee par empˆecher l’´etape suivante si la pr´ec´edente n’a pas ´et´e valid´ee depuis le dernier changement.

6

Conclusion

Ce stage donne suite au premier effectu´e l’an pass´e au LORIA. L’ann´ee derni`ere j’ai pu poser les bases du logiciel. Cette ann´ee, ´etant au plus pr`es des utilisateurs contrairement `a l’an pass´e, j’ai pu mieux visualiser les besoins des utilisateurs. Je leur ai pos´e chaque question qui me venait `a l’esprit dans le but de cr´eer un logiciel sur mesure. CarottAge a donc subi de nombreuses transformations.

Le logiciel a connu beaucoup de modifications dans le but de faciliter son utilisation, de le rendre plus intuitif et agr´eable `a utiliser. Trois des quatre onglets initiaux ont ´et´e modifi´es dont un qui a ´et´e divis´e en trois. CarottAge poss`ede donc aujourd’hui six onglets.

Des fonctionnalit´es ont ´et´e ajout´ees pour automatiser une s´erie d’´etudes de r´egions agricoles diff´erentes. L’architecture a ´egalement ´et´e chang´ee pour adopter celle de client/serveur. Le serveur dellCarottAge poss´edant un pare feu ne permet pas aux clients ext´erieurs du r´eseau local de l’Inra Mirecourt de s’y connec- ter. Ce pare feu est g´er´e par l’Inra Nancy et n’a pas pu ˆetre modifi´e.

Ce stage m’a permis de manipuler plusieurs langages comme le Java, le C/C++ et la librairie Qt qui est tr`es agr´eable `a utiliser et permet de faire des applications tr`es vari´ees. Mais le stage ne se limite pas seulement `a de la programmation objet. En effet j’ai beaucoup travaill´e en autonomie et j’ai dialogu´e avec les utilisateurs afin d’´etablir les besoins comme on pourrait ´etablir un cahier des charges en entreprise. J’ai ensuite proc´ed´e `a l’´etape de conception pour r´epondre `a ces besoins.

Ainsi j’ai pu, au cours de ce stage, mener un projet du d´ebut `a la fin dans la plus grande autonomie. CarottAge quant `a lui n´ecessite encore des transformations suite aux nouveaux besoins qui sont apparus et ceux qui n’ont pas pu ˆetre trait´es.

7

Annexes

Fouille de données à l'aide de

modèles sto hastiques

Segmentation temporo-spatiale des su essions

de ultures

d'un territoire agri ole à l'aide de HMM2

El Ghali Lazrak

1

Mar Benoît

1

Jean-FrançoisMari

1,2

1

: INRA,UR055,SADASTER

domaineduJoly,F-88500Mire ourt

{lazrak,benoit}mire ourt.inra.fr

2

: UMRCNRS 7503et INRIA-GrandEst,LORIA

B.P. 239F-54506Vand÷uvre-lès-Nan y

jfmariloria.fr

Abstra t

We propose anoriginal dataminingmethodto segment agri ultural

lands apesbasedonatemporospatialmodellingoftheir ropsu essions. Thismethod onsistsin(i) hoosingthelengthofthe ropsu ession,(ii)

hoosingthe spatialresolution to samplethe territory,(iii) spe ifyinga on eptual modeltorepresent the rop su essionsbymeansof se ond-

order HiddenMarkov Models, and (iv) nally segmenting the territory intohomogeneousareasthatwillbefurtherinvestigated.

Mots- lés: HMM2,segmentationtemporo-spatiale,fouillededonnées keywords: HMM2,temporo-spatialsegmentation,datamining

1 Introdu tion

Dansun ontextededéveloppementdurable,l'a tivitéagri olesedoit,en- treautresexigen es,depréserverlemilieunaturelqu'elleutiliseettrans-

forme. Représenterlarépartitiondel'a tivitéagri oledansl'espa eàdes é helles ompatibles ave elles du déroulementd'enjeux environnemen-

taux et/ou depro essus é ologiques vadans lesens deseorts visant à préserveretàrétablirl'équilibre danslesagro-é osystèmes[15 ℄.

L'étudedessu essionsde ouvertsvégétauxpourreprésenterl'a tivité

agri ole d'un agro-système a été initiée, depuis la n du XIXe siè le,

1

inria-00398182, version 1 - 24 Jun 2009

é osystèmesnaturels[8 ℄. Lessu essionsde ulturesintègrentdiérentes

logiques quidi tent letravail del'agri ulteur. La fouilledes su essions de ulturesd'unterritoire apourobje tifde mettreà jour eslogiques

etdequantierleursimportan essurl'évolutiondespaysagesetl'impa t des ontraintesagri olessurlabiodiversité.

Laméthodedefouillededonnéesprésentéedans etarti le onsidère le territoire agri ole omme une mosaïquede par elles sur lesquellesse trouvent des ouverts végétaux oud'autres o upations tellesque bâti,

routes, .... La méthode onsiste (i)à hoisir lalongueur de lasu es- sion temporelle d'o upations du sol (OCS), (ii) à hoisir la résolution

de l'é hantillonnage spatial, (iii) à dénir un modèle on eptuel pour la représentation des su essions des OCS, et enn, (iv) à réer une

arte de paysages sous forme de zones homogènes vis-à-vis des su es- sionsd'o upationdusoletde roiser etteinformation ave laprésen e /absen edesespè esanimales onsidéréesquidégagerontdeszonesqu'il

faudraprospe terplusprofondément.

Après une introdu tion suivie dela présentation du matériel et des

méthodes, lapartie 3dé ritnotreappli ationdanslaquellenousre her- honslelienentresu essionsde ulturesetprésen ed'uneespè eanimale

protégéele busarddeMontagu dansunterritoirede350Km 2

dans l'OuestdelaFran e. La on lusionesquisselasuitede etravailprélim- inairedefouillededonnéestemporellesetspatiales.

2 Matériels et méthodes

2.1 Les o upations du sol

Leterritoireagri oleétudié350Km 2

danslaplaine éréalièredeNiort estenquêtédepuisplusde12ans. Lalo alisationetleso upationsde

sespar elles sontrelevées haqueannée. Cetteenquêteeststo kéedans unsystèmed'informationgéographique(SIG)etestdestinéeàsuivreles

évolutionsdeso upationsetdesrotationsde ulturesnotammenten e qui on erne l'évolution des prairies : OCS essentielles pour la préser-

vationde ertainesespè es animalesprotégées. L'ensemble onstitueun gros orpus d'informations temporelles etspatiales possédant un niveau

dedétailssupérieurà equ'uneanalysed'imagessatellitespeuta tuelle- mentobtenir. Ce orpusestreprésentésouslaformed'unematri edans laquelleles olonnesreprésentent les OCS annéepar annéeetles lignes

lesdiérentssitesenquêtés.

L'analyse des fréquen es moyennes annuelles des OCS al ulées sur

les 12années de la périoded'étude fait ressortir 47 o upations du sol delamatri e dedonnées. Les experts agronomeslesregroupent ensuite

en10 atégories( f. tableau 1)suivant unedémar hetenant omptede la similitudedes onduites ulturales. Sont retenuesles OCS :Blé (B), Tournesol(T),Colza(C),Urbain(U),Prairiesetluzernes(P),Maïs(M),

Forêtsetfri hes(F),Orged'hiver(O),raY-grass(Y),poiS(S)etAutres (A).

2

d'o upationdusol umulée

Blé(B) blé,blébarbu, éréale 0.337

Tournesol(T) tournesol,ray-grasssuividetournesol 0.476

Colza (C) Colza 0.600

Urbain(U) bâti,péri-village,route 0.696

PrairiesetLuzernes

(P)

prairiepermanente,prairieannée1,prairie

temporaire(2-3ans),prairieâgein onnu, luzerne1an,luzerne2ans,luzerne3ans,

luzerne>3ans

0.6

Maïs(M) maïs,ray-grasssuividemaïs 0.850

Forêtsetfri hes(F) forêtouhaie,fri he 0.884

Orged'hiver(O) orged'hiver 0.918

Ray-grass(Y) ray-grass,ray-grasssuivideray-grass 0.942

Pois(S) Pois 0.964

Autres(A) orgedeprintemps,vigne,ja hèrespontanée juin,moha,lin,avoine,trèe,féverole,

ray-grasssuividelabour,ray-grasssuivi d'in onnu,ja hèrespontanéesuiviede

labour,mélange éréalelégumineuse, ulture printemps,moutarde,jardin/ ulture

maraî hère,sorgho/millet,sorgho,millet, labour,taba ,autre ulture

1.000

Table 1: Composition et fréquen es moyennes des atégories d'o upationdusoladoptées

2.2 La mosaïque agri ole

Le omposantdebasedansunterritoireagri oleestlapar elle:polygone detaillevariablepossédantun ouvertl'OCSetéventuellementhabitée

par une espè e animale. Elle est délimitée géographiquement par une route,un hemin,...ouarti iellementparl'agri ulteurquisubdivisele

territoiredesonexploitationpourrespe terunassolement: ensembledes surfa es allouéesà haque ulture. Lesfrontières despar elles hangent

haque annéeen fon tiondes hoix des agri ulteurs ( f. Fig. 1). Pour tenir omptede e hangement,lesenquêteursdénissentl'ensembledes mi ro-par elles ommeétantl'uniondetouteslesinterse tionsdepar elles

pendant la période d'étude. Il y a environ 20000 mi ro-par elles dans le territoire étudié. Tous les points d'une mi ro-par elle n'ont hébergé

qu'unesu essionde ulturespendantlapérioded'étude.

L'analysespatialed'unterritoireagri olevu ommeunemosaïquede

par elles detaillequel onqueprésentedesparti ularitésduesaux ara - téristiquesdesOCS.Dansl'analysespatialeduterritoire,lapar ellejoue

le rle d'un pixel de taille variable possédant plusieurs modalités : les diérentesOCS.L'OCSd'unepar elleàl'instantts'ins ritdansunesu - essiontemporelled'OCSquiintègrelesavoir-fairedel'agri ulteurquimet

envaleursonterritoireenfon tiondediérenteslogiques. L'organisation dansletempsimpliqueuneorganisationdansl'espa e. Ainsil'OCSd'une

3

Figure 1: Exemple d'évolution des limites de par elles pendant trois années

su essives. L'interse tion despar ellespendant ettepériodeaboutitàladéf-

initiondeseptmi ro-par elles

4

ettepar elleainsiquedesOCSdespar ellesvoisines. Danslamosaïque

par ellaire, le système de voisinage est irrégulier. Une par elle a un nombrequel onquedepar ellesave lesquellesellepartageunefrontière

Documents relatifs