• Aucun résultat trouvé

i=1 ˆ f(yi; θ), 2.60

puis un estimateur biaisé de la log-vraisemblance ˆ ℓ(θ) =log ˆL(θ) = si=1 log ˆf(yi; θ).

En effet, linégalité de Jensen nous assure que E(ˆℓ(θ)) < ℓ(θ). Cependant, ce biais diminue à mesure que N augmente, et si la loi instrumentale choisie est suffisamment proche de la loi conditionnelle des ϕi

sachant yi.

3 Évaluation du modèle

3.1 Structure de covariance

Il est possible de tester si la variance dun effet aléatoire est signiicativement non nulle, et si leffet en question doit donc être considéré comme variable au sein de la population, ou sil peut être considéré comme ixe. Supposons que lon souhaite tester le caractère aléatoire du kèmeparamètre, cest-à-dire tester lhypothèse nulle suivante :

H0 :{σk2 = 0} vs. H1 :{σk2 >0}, 2.61 où σkest le kèmeélément situé sur la diagonale de la matrice Γ. On peut utiliser un test du rapport de vraisemblance TRV en déinissant la statistique de test suivante :

T =−2(ℓ0(θ)− ℓ1(θ)),

où ℓ0 est la log-vraisemblance sous H0 et ℓ1 la log-vraisemblance sous H1. Usuellement dans ce type de test, la statistique T suit sous lhypothèse nulle une loi du chi-deux dont le degrés de liberté correspond au nombre de paramètres sous H1 moins le nombre de paramètres sous H0. Cependant ici, lhypothèse nulle correspond à la frontière de lespace du paramètre σ2

k, ce dernier étant positif ou nul par déinition.

Self et Liang1987 ont montré que, dans ce cas, la loi de la statistique de test sous lhypothèse nulle est un mélange de deux lois du chi-deux : 1

2χ21+12χ20, où la loi χ2

0correspond à la masse de Dirac en 0. Dun point de vue pratique, cela signiie que les p-values associées aux tests du rapport de vraisemblance sont divisées par deux par rapport au cas où lon supposerait uniquement une loi χ2

1pour T sous H0.

3.2 Erreur de prédiction sur la distribution

Lune des étapes essentielles lors de la construction dun modèle est celle de sa validation. Limportance de cette étape de validation a notamment été discutée dans le chapitre précédent, où nous précisions en particulier que le choix des critères dévaluation dépendait de lobjectif pour lequel le modèle avait été construit initialement. Par exemple, lorsque le but est dobtenir un outil prédictif, les critères présentés au chapitre précédent savèrent particulièrement adaptés, alors que si lobjectif est de construire un modèle purement descriptif, dautres critères seront utilisés. Il convient donc, comme précisé au chapitre précédent, de bien déinir en amont lobjectif du modèle.

Dans le cadre des applications de ce chapitre, notre principal objectif sera essentiellement descriptif. Le but est de décrire le mieux possible la population étudiée. Pour cela,Mentré et Escolano2006 proposent, dans le cadre des modèles non linéaires mixtes, dutiliser un critère basé sur les écarts de prédiction du modèle. À partir des estimations obtenues grâce aux algorithmes décrits précédemment, il est possible destimer la distribution des prédictions à laide de méthodes de Monte-Carlo. On déinit ensuite lécart de prédiction pour lindividu i sous la condition tij, eij, comme la valeur de la fonction de répartition des prédictions au point yij.

Plus précisément, en notant Yij, i= 1, . . . , s, j = 1, . . . , ni la prédiction du modèle pour lindividu iet la condition tij, on a :

eij = P(Yij ≤ yij), 2.62

où yij est lobservation pour lindividu i sous la condition tij voir section1. La loi des Yij est incon-nue, mais la fonction de répartition peut être approchée par des méthodes de Monte Carlo. Pour cela, on simule M jeux de données (Ym

ij ), m = 1, . . . , M selon le modèle 2.1 - 2.2, à partir de lestimateur ˆθ. On approche ensuite eij par le quantile empirique correspondant, cest-à-dire par

ˆ eij = 1 M Mm=1 1Ym ij≤yij. 2.63

Sous lhypothèse nulle {H0 : le modèle décrit bien les données}, ces écarts de prédiction suivent une loi uniforme sur [0, 1]. Cependant, les erreurs de prédictions dun même individu sont corrélées, et les tests usuels du type Kolmogorov-Smirnov, qui requièrent lindépendance des données, ne peuvent pas être utilisés. Comets et al. 2008 ont alors proposé dutiliser une version décorrélée de ces erreurs de prédiction. Pour chaque individu, on note Ym

i le vecteur de prédictions du jeu de données simulé m. On calcule ensuite sa moyenne et sa variance empiriques sur les M échantillons de Monte-Carlo, puis on déinit la prédiction décorrélée Ym,∗

i :

Yim,∗ = (Var Yi)−1/2(Ym

i − E(Yi)) . 2.64

Les erreurs de prédiction ˆe

ij sont ensuite obtenues de la même façon que les écarts de prédiction, mais en utilisant Ym,∗

i au lieu de Ym

i . Pour inir, on déinit alors les erreurs normalisées de prédiction comme :

npdeij = Φ−1(ˆeij). 2.65

Ainsi normalisées, les erreurs de prédiction suivent, sous lhypothèse nulle, une loi normale centrée réduite.

Chapitre 3

Modélisation de la variabilité inter-plantes

“La plupart des hommes ont, comme les plantes, des propriétés cachées que le hasard fait découvrir.”

François de la Rochefoucauld, Maximes.

D

   précédent, nous avons présenté une approche basée sur les modèles à effets mixtes, permettant de prendre en compte à la fois la variabilité intra- et inter-individuelle dans une popu-lation. La variabilité intra-individuelle est représentée par une fonction non linéaire décrivant lévolution des observations dun même individu, et la variabilité inter-individuelle, celle qui nous intéresse plus spé-ciiquement, est prise en compte en introduisant des effets aléatoires dans le modèle.

Dans ce chapitre, nous présentons deux applications de cette méthodologie à la modélisation de la variabilité inter-plantes. Nous nous sommes intéressés tout dabord à la variabilité de lorganogenèse chez la betterave sucrière section1, à laide dun modèle mixte linéaire par morceaux, permettant de prendre en compte les deux phases de développement observées voir Chapitre1, section1.1.1. Ce modèle a été implémenté sous Monolix e Monolix Team,2011, logiciel dédié à lestimation dans les modèles non linéaires mixtes et basé sur lalgorithme SAEM présenté au chapitre précédent.

Puis, nous proposons en section2une extension du modèle Greenlab à léchelle de la population. Les performances des deux algorithmes destimation présentés dans le chapitre précédent ont été comparés sur des jeux de données simulées, puis sur des jeux de données réelles provenant de la betterave et du colza, en supposant un modèle de bruit portant uniquement sur les observations.

1 L’organogenèse chez la betterave

Nous présentons dans cette section une application des méthodes précédentes au modèle dorganoge-nèse chez la betterave dont la variabilité génétique est assez forte, ne sagissant pas dune lignée pure.

Cette variabilité sobserve en particulier sur le nombre de feuilles, qui peut être très différent dune plante à lautre, même dans des conditions environnementales identiques. Or, les plantes étant en com-pétition constante pour la lumière, la capacité pour certaines dentre elles de produire plus de feuilles, ou plus rapidement que leurs voisines, peut leur garantir un meilleur accès à la lumière et leur permettre de produire plus de biomasse.Liu et al.2004 ont par exemple observé dimportantes variations de rende-ment lorsque le rythme démission des feuilles ou la vitesse démergence différaient dune plante à lautre. Linterception lumineuse étant directement reliée à la production de biomasse voir chapitre1, chaque

F. 3.1 – Croissance de la betterave sucrière simulée par le logiciel DigiPlant Cournède et al.,2006, aux cycles de croissance 15, 17, 20, 26, 30, 34, 39 et 43.

facteur ayant une inluence sur la vitesse dexpansion de la surface foliaire et donc sur la surface foliaire totale, pourra avoir un impact sur le rendement.

Le rythme dapparition des feuilles est donc un paramètre crucial dans le développement de la plante. Il est en général déini à laide de son inverse, le phyllochrone voir aussi chapitre 1, section 1.1.1. La variabilité du phyllochrone a été étudiée pour plusieurs espèces, et plusieurs facteurs environnementaux ayant une inluence sur ce paramètre ont été identiiés. Dans leur étude du sorgho,Clerget et al. 2008 montrent par exemple quil existe une corrélation positive entre la température du sol et le phyllochrone, et une corrélation négative entre la photopériode et la longueur du jour dune part, et le phyllochrone dautre part. Des résultats similaires ont été observés parCao et Moss1989 pour le blé et lorge, et une courte revue des facteurs ayant une inluence sur le phyllochrone a été proposée parWilhelm et McMaster1995. Parmi les facteurs pouvant provoquer une hausse du phyllochrone et donc un ralentissement du rythme dapparition des feuilles, on retrouve la température, un stress hydrique très important, ou même de fortes concentrations en sel. À linverse, le phyllochrone décroît lorsque la concentration en CO2augmente, ou lorsque la quantité et la qualité de la lumière diminuent.

Dans le cas de la betterave, Milford et al. 1985a,b ont observé deux phases distinctes dans le dé-veloppement de la plante, ce qui les conduit à déinir deux phyllochrones, un pour chaque phase. Ils ont observé, en comparant plusieurs années dexpérimentations et plusieurs traitements agricoles avec ou sans irrigation, avec ou sans engrais, en faisant varier la densité de plantation et la date de semis, que le phyllochrone de la première phase restait stable, mais que la durée de cette première phase, ainsi que le phyllochrone de la deuxième phase, étaient plus variables. Lemaire et al.2008 ont également observé ces deux phases successives dans le développement de la betterave, avec une première phase qui sétend de lémergence jusquà lapparition de la vingtième feuille environ, puis une seconde phase de ralentissement du développement foliaire correspondant à un plus grand phyllochrone. Plusieurs hypothèses peuvent être avancées pour expliquer ce phénomène :Milford et al.1985a suggèrent par exemple un changement dans la température de base servant au calcul du temps thermique voir équation1.6, et une augmentation de la compétition pour les ressources entre les feuilles et la racine. De leur côté,Lemaire et al.2008,2009 ont montré que ce changement intervenait au début de la phase linéaire de croissance racinaire, et au moment de la couverture du sol par le feuillage, lorsque la compétition pour la lumière augmente. Cette cassure se retrouve également chez certaines autres plantes, notamment chez le colza, mais dans ce dernier cas on assiste plutôt à une accélération quà un ralentissement du rythme démission des feuilles.

Néanmoins, si le phyllochrone moyen reste stable, il est fortement variable dune plante à lautre Frank et Bauer,1995, ce qui, associé à la variabilité du temps de germination ou démergence Dürr et Boiffin,

1995, implique une forte variabilité du nombre total de feuilles voir igure3.2.

Malgré cette forte variabilité inter-individus, peu détudes portant sur le phyllochrone la prennent en compte. La plupart dentre elles sont basées sur des modèles à effets ixes, soit basés sur toute la population

500 1000 1500 2000 2500 3000