i=1 ˆ f(yi; θ∗), 2.60
puis un estimateur biaisé de la log-vraisemblance ˆ ℓ(θ∗) =log ˆL(θ∗) = s ∑ i=1 log ˆf(yi; θ∗).
En effet, linégalité de Jensen nous assure que E(ˆℓ(θ∗)) < ℓ(θ∗). Cependant, ce biais diminue à mesure que N augmente, et si la loi instrumentale choisie est suffisamment proche de la loi conditionnelle des ϕi
sachant yi.
3 Évaluation du modèle
3.1 Structure de covariance
Il est possible de tester si la variance dun effet aléatoire est signiicativement non nulle, et si leffet en question doit donc être considéré comme variable au sein de la population, ou sil peut être considéré comme ixe. Supposons que lon souhaite tester le caractère aléatoire du kèmeparamètre, cest-à-dire tester lhypothèse nulle suivante :
H0 :{σk2 = 0} vs. H1 :{σk2 >0}, 2.61 où σkest le kèmeélément situé sur la diagonale de la matrice Γ. On peut utiliser un test du rapport de vraisemblance TRV en déinissant la statistique de test suivante :
T =−2(ℓ0(θ)− ℓ1(θ)),
où ℓ0 est la log-vraisemblance sous H0 et ℓ1 la log-vraisemblance sous H1. Usuellement dans ce type de test, la statistique T suit sous lhypothèse nulle une loi du chi-deux dont le degrés de liberté correspond au nombre de paramètres sous H1 moins le nombre de paramètres sous H0. Cependant ici, lhypothèse nulle correspond à la frontière de lespace du paramètre σ2
k, ce dernier étant positif ou nul par déinition.
Self et Liang1987 ont montré que, dans ce cas, la loi de la statistique de test sous lhypothèse nulle est un mélange de deux lois du chi-deux : 1
2χ21+12χ20, où la loi χ2
0correspond à la masse de Dirac en 0. Dun point de vue pratique, cela signiie que les p-values associées aux tests du rapport de vraisemblance sont divisées par deux par rapport au cas où lon supposerait uniquement une loi χ2
1pour T sous H0.
3.2 Erreur de prédiction sur la distribution
Lune des étapes essentielles lors de la construction dun modèle est celle de sa validation. Limportance de cette étape de validation a notamment été discutée dans le chapitre précédent, où nous précisions en particulier que le choix des critères dévaluation dépendait de lobjectif pour lequel le modèle avait été construit initialement. Par exemple, lorsque le but est dobtenir un outil prédictif, les critères présentés au chapitre précédent savèrent particulièrement adaptés, alors que si lobjectif est de construire un modèle purement descriptif, dautres critères seront utilisés. Il convient donc, comme précisé au chapitre précédent, de bien déinir en amont lobjectif du modèle.
Dans le cadre des applications de ce chapitre, notre principal objectif sera essentiellement descriptif. Le but est de décrire le mieux possible la population étudiée. Pour cela,Mentré et Escolano2006 proposent, dans le cadre des modèles non linéaires mixtes, dutiliser un critère basé sur les écarts de prédiction du modèle. À partir des estimations obtenues grâce aux algorithmes décrits précédemment, il est possible destimer la distribution des prédictions à laide de méthodes de Monte-Carlo. On déinit ensuite lécart de prédiction pour lindividu i sous la condition tij, eij, comme la valeur de la fonction de répartition des prédictions au point yij.
Plus précisément, en notant Yij, i= 1, . . . , s, j = 1, . . . , ni la prédiction du modèle pour lindividu iet la condition tij, on a :
eij = P(Yij ≤ yij), 2.62
où yij est lobservation pour lindividu i sous la condition tij voir section1. La loi des Yij est incon-nue, mais la fonction de répartition peut être approchée par des méthodes de Monte Carlo. Pour cela, on simule M jeux de données (Ym
ij ), m = 1, . . . , M selon le modèle 2.1 - 2.2, à partir de lestimateur ˆθ. On approche ensuite eij par le quantile empirique correspondant, cest-à-dire par
ˆ eij = 1 M M ∑ m=1 1Ym ij≤yij. 2.63
Sous lhypothèse nulle {H0 : le modèle décrit bien les données}, ces écarts de prédiction suivent une loi uniforme sur [0, 1]. Cependant, les erreurs de prédictions dun même individu sont corrélées, et les tests usuels du type Kolmogorov-Smirnov, qui requièrent lindépendance des données, ne peuvent pas être utilisés. Comets et al. 2008 ont alors proposé dutiliser une version décorrélée de ces erreurs de prédiction. Pour chaque individu, on note Ym
i le vecteur de prédictions du jeu de données simulé m. On calcule ensuite sa moyenne et sa variance empiriques sur les M échantillons de Monte-Carlo, puis on déinit la prédiction décorrélée Ym,∗
i :
Yim,∗ = (Var Yi)−1/2(Ym
i − E(Yi)) . 2.64
Les erreurs de prédiction ˆe∗
ij sont ensuite obtenues de la même façon que les écarts de prédiction, mais en utilisant Ym,∗
i au lieu de Ym
i . Pour inir, on déinit alors les erreurs normalisées de prédiction comme :
npdeij = Φ−1(ˆe∗ij). 2.65
Ainsi normalisées, les erreurs de prédiction suivent, sous lhypothèse nulle, une loi normale centrée réduite.
Chapitre 3
Modélisation de la variabilité inter-plantes
“La plupart des hommes ont, comme les plantes, des propriétés cachées que le hasard fait découvrir.”
François de la Rochefoucauld, Maximes.
D
précédent, nous avons présenté une approche basée sur les modèles à effets mixtes, permettant de prendre en compte à la fois la variabilité intra- et inter-individuelle dans une popu-lation. La variabilité intra-individuelle est représentée par une fonction non linéaire décrivant lévolution des observations dun même individu, et la variabilité inter-individuelle, celle qui nous intéresse plus spé-ciiquement, est prise en compte en introduisant des effets aléatoires dans le modèle.Dans ce chapitre, nous présentons deux applications de cette méthodologie à la modélisation de la variabilité inter-plantes. Nous nous sommes intéressés tout dabord à la variabilité de lorganogenèse chez la betterave sucrière section1, à laide dun modèle mixte linéaire par morceaux, permettant de prendre en compte les deux phases de développement observées voir Chapitre1, section1.1.1. Ce modèle a été implémenté sous Monolix e Monolix Team,2011, logiciel dédié à lestimation dans les modèles non linéaires mixtes et basé sur lalgorithme SAEM présenté au chapitre précédent.
Puis, nous proposons en section2une extension du modèle Greenlab à léchelle de la population. Les performances des deux algorithmes destimation présentés dans le chapitre précédent ont été comparés sur des jeux de données simulées, puis sur des jeux de données réelles provenant de la betterave et du colza, en supposant un modèle de bruit portant uniquement sur les observations.
1 L’organogenèse chez la betterave
Nous présentons dans cette section une application des méthodes précédentes au modèle dorganoge-nèse chez la betterave dont la variabilité génétique est assez forte, ne sagissant pas dune lignée pure.
Cette variabilité sobserve en particulier sur le nombre de feuilles, qui peut être très différent dune plante à lautre, même dans des conditions environnementales identiques. Or, les plantes étant en com-pétition constante pour la lumière, la capacité pour certaines dentre elles de produire plus de feuilles, ou plus rapidement que leurs voisines, peut leur garantir un meilleur accès à la lumière et leur permettre de produire plus de biomasse.Liu et al.2004 ont par exemple observé dimportantes variations de rende-ment lorsque le rythme démission des feuilles ou la vitesse démergence différaient dune plante à lautre. Linterception lumineuse étant directement reliée à la production de biomasse voir chapitre1, chaque
F. 3.1 – Croissance de la betterave sucrière simulée par le logiciel DigiPlant Cournède et al.,2006, aux cycles de croissance 15, 17, 20, 26, 30, 34, 39 et 43.
facteur ayant une inluence sur la vitesse dexpansion de la surface foliaire et donc sur la surface foliaire totale, pourra avoir un impact sur le rendement.
Le rythme dapparition des feuilles est donc un paramètre crucial dans le développement de la plante. Il est en général déini à laide de son inverse, le phyllochrone voir aussi chapitre 1, section 1.1.1. La variabilité du phyllochrone a été étudiée pour plusieurs espèces, et plusieurs facteurs environnementaux ayant une inluence sur ce paramètre ont été identiiés. Dans leur étude du sorgho,Clerget et al. 2008 montrent par exemple quil existe une corrélation positive entre la température du sol et le phyllochrone, et une corrélation négative entre la photopériode et la longueur du jour dune part, et le phyllochrone dautre part. Des résultats similaires ont été observés parCao et Moss1989 pour le blé et lorge, et une courte revue des facteurs ayant une inluence sur le phyllochrone a été proposée parWilhelm et McMaster1995. Parmi les facteurs pouvant provoquer une hausse du phyllochrone et donc un ralentissement du rythme dapparition des feuilles, on retrouve la température, un stress hydrique très important, ou même de fortes concentrations en sel. À linverse, le phyllochrone décroît lorsque la concentration en CO2augmente, ou lorsque la quantité et la qualité de la lumière diminuent.
Dans le cas de la betterave, Milford et al. 1985a,b ont observé deux phases distinctes dans le dé-veloppement de la plante, ce qui les conduit à déinir deux phyllochrones, un pour chaque phase. Ils ont observé, en comparant plusieurs années dexpérimentations et plusieurs traitements agricoles avec ou sans irrigation, avec ou sans engrais, en faisant varier la densité de plantation et la date de semis, que le phyllochrone de la première phase restait stable, mais que la durée de cette première phase, ainsi que le phyllochrone de la deuxième phase, étaient plus variables. Lemaire et al.2008 ont également observé ces deux phases successives dans le développement de la betterave, avec une première phase qui sétend de lémergence jusquà lapparition de la vingtième feuille environ, puis une seconde phase de ralentissement du développement foliaire correspondant à un plus grand phyllochrone. Plusieurs hypothèses peuvent être avancées pour expliquer ce phénomène :Milford et al.1985a suggèrent par exemple un changement dans la température de base servant au calcul du temps thermique voir équation1.6, et une augmentation de la compétition pour les ressources entre les feuilles et la racine. De leur côté,Lemaire et al.2008,2009 ont montré que ce changement intervenait au début de la phase linéaire de croissance racinaire, et au moment de la couverture du sol par le feuillage, lorsque la compétition pour la lumière augmente. Cette cassure se retrouve également chez certaines autres plantes, notamment chez le colza, mais dans ce dernier cas on assiste plutôt à une accélération quà un ralentissement du rythme démission des feuilles.
Néanmoins, si le phyllochrone moyen reste stable, il est fortement variable dune plante à lautre Frank et Bauer,1995, ce qui, associé à la variabilité du temps de germination ou démergence Dürr et Boiffin,
1995, implique une forte variabilité du nombre total de feuilles voir igure3.2.
Malgré cette forte variabilité inter-individus, peu détudes portant sur le phyllochrone la prennent en compte. La plupart dentre elles sont basées sur des modèles à effets ixes, soit basés sur toute la population
500 1000 1500 2000 2500 3000