Sélection du nombre de paramètres - Modélisation de la variabilité inter-individuelle dans les

Une fois que les paramètres ont été ordonnés selon leur inluence sur les sorties du modèle, chaque mo-dèle a été calibré avec un nombre croissant de paramètres, introduits dans le momo-dèle dans lordre déterminé par lanalyse de sensibilité.

2.4.1 Méthode d’estimation

Lestimation paramétrique dans les modèles dynamiques discrets est décrite dans Goodwin et Payne

1977, et une application dans le cas du modèle Greenlab a été présentée parZhan et al. 2003, Guo et al.2006. Notons (tk)1≤k≤n la séquence des temps en jours depuis semis auxquels la plante a été observée, et yk le vecteur dobservations au tempstk. Le vecteur dobservations est donc implicitement une fonction du vecteur de paramètresθ:

y=f(θ) +ϵ

oùf représente le modèle utilisé,y = (y1, . . . , yn)^t∈R^N, etϵ= (ϵ1, . . . , ϵn)^t, avecϵ∼ N(0,Σ). En supposant un modèle derreur gaussien, la log-vraisemblance sécrit :

L(θ) = (

(2π)^NdetΣ)−1/2

exp [

−1

2(y−f(θ))^tΣ⁻¹(y−f(θ)) ]

. 1.19

Lorsque la matrice de covariance Σest connue, lestimateur du maximum de vraisemblance coïncide avec celui des moindres carrés généralisés, et sobtient par minimisation du critère suivant :

θˆ=argmin

((y−f(θ)^tΣ⁻¹(y−f(θ))).

Dans la pratique, la matrice Σ est supposée connue, et est obtenue à partir des variances observées de chacune des variables. Plus spéciiquement, supposons que le vecteur dobservations y est ordonné enK sous-groupes de tailleNk, k = 1, . . . , K correspondant chacun à un type dorgane diﬀérent. On suppose ensuite que deux éléments dun même groupe ont la même variance, et quils sont mutuellement indépendants, ce qui nous donne la matrice de covariance suivante :

Σ =







σ²₁IN1 0 . . . 0 0 σ₂²IN2 ... ...

... ... ... 0

0 . . . 0 σ_K²INK







où Ik est la matrice identité de taille Nk, etσ_k² la variance empirique du groupe dorganesk. Nous renvoyons àCournède et al.2011 pour une description détaillée de lalgorithme destimation.

2.4.2 Critères de sélection

Pour chaque modèle, les deux critères dinformation AICc et BIC ont été utilisés, où le critère AICc correspond à une correction du AIC dans le cas où la taille de léchantillon est trop faible. Lutilisation de ce critère permet de minimiser les risques de sur-apprentissage pour les petits échantillons, et converge vers

T. 1.4 – Critères AICc et BIC en fonction du nombre de paramètres estimés. Les résultats du modèle STICS pour un nombre de paramètres supérieur à 10 ne sont pas présentés, la vraisemblance étant constante à partir de ce point.

Nombre de

-la version non corrigée lorsque -la taille de léchantillon tend vers linini Burnham et Anderson, 2002.

Nous rappelons les déinitions de ces deux critères :

AICc=−2 (lnL(ˆθ)−p) + 2p(p+ 1)

(n−p−1) 1.20

BIC =−2 lnL(ˆθ) +plnn, 1.21

oùL(θ)est la vraisemblance du modèle,θˆest lestimateur du maximum de vraisemblance des para-mètres du modèle,ple nombre de paramètres etnla taille de léchantillon. Lorsque lon compare diﬀérents modèles, on retient celui pour lequel ces critères sont minimaux.

Daprès les déinitions ci-dessous, le calcul des deux critères nécessite lutilisation de la méthode du maximum de vraisemblance pour obtenir un estimateur deθ. Cependant, dans le cas gaussien, et lorsque la matrice de variance-covariance des erreurs est supposée connue, le maximum de vraisemblance coïncide avec lestimateur obtenu par les moindres carrés généralisés, méthode qui a été utilisée ici pour calibrer les diﬀérents modèles.

Les résultats de la procédure de sélection du nombre de paramètres sont présentés dans le Tableau1.4 et en Figure1.9. Les deux critères AICc et BIC fournissent des résultats similaires, sauf pour le modèle Greenlab, où la version corrigée du AIC préconise lestimation de 7 paramètres, et le critère BIC seulement 4. Les deux versions seront comparées sur les données tests.

La liste des paramètres sélectionnés pour chaque modèle ainsi que les valeurs estimées correspondantes sont présentées dans le Tableau1.5. Les autres paramètres ont été ixés à la valeur moyenne de lintervalle de variation utilisé pour lanalyse de sensibilité voir Tableau 1.2. Pour les modèles LNAS et STICS, lestimation dun seul paramètre suffit à assurer une bonne calibration du modèle, et lajout de paramètres supplémentaires ne permet pas daccroître suffisamment la vraisemblance du modèle. Pour Greenlab et Pilote, il est nécessaire dinclure un plus grand nombre de paramètres pour calibrer les modèles. Lefficience au niveau du mètre carré pour le modèle Greenlab est égale à 5.93 g.M J⁻¹pour la version à 4 paramètres, et à 4.03 g.M J⁻¹pour la version à 7 paramètres voir Section1.1pour le détail du calcul.

0 5 10 15 20 25 30

1 2 3 4 5 6 7 8

AICc BIC

a STICS

40 60 80 100 120 140 160 180

1 2 3 4 5 6 7 8 9 10

AICc BIC

b Greenlab

F. 1.9 – Évolution du AICc et du BIC en fonction du nombre de paramètres.

15 20 25 30 35 40 45 50

1 2 3 4 5

AICc BIC

a Pilote

0 5 10 15 20 25 30 35

1 2 3 4 5 6 7 8

AICc BIC

b LNAS

F. 1.9 – suite Évolution du AICc et du BIC en fonction du nombre de paramètres.

T. 1.5 – Données utilisées pour calibrer chaque modèle, et estimation des paramètres.

Modèle Données de calibration Estimation

Greenlab 4 Masse de la racine, des limbes et des pétiolesMasses individuelles des limbes et pétioles

µ= 5.49 s^pr = 0.0914

→RUE= 5.93 a_r = 4.06 b_r= 1.77

Greenlab 7 Masse de la racine, des limbes et des pétiolesMasses individuelles des limbes et pétioles

µ= 5.55 s^pr = 0.0615

→RUE= 4.03 a_r = 3.16 br= 1.04 p_p= 0.0039 a_b = 3.08 qp = 1.70 LNAS Masse de la racine

Masse des feuilles vertes

Masse des feuilles sénescentes RUE = 3.53

PILOTE Masse totale Indice foliaire LAI

RUE = 4.12 α= 1.54 β= 1.92 τ_max= 1830 LAImax = 3.99

CERES Masse totale RUE = 4.37

STICS Masse de la racine Masse des limbes verts

Masse totale RUE = 4.76

3 Prévision

Une fois que les modèles ont été calibrés sur le jeu de données dapprentissage, leurs capacités de prédiction sont testées sur un jeu de données test indépendant. Les prédictions de chaque modèle ont été simulées avec le même jeu de paramètres que celui obtenu à létape de calibration, seuls la densité de plantation et le temps thermique dinitiation ont été adaptés au jeu de données test. Nous présentons dans un premier temps le jeu de données test, puis les critères utilisés pour évaluer les capacités prédictives des modèles.

Dans le document Modélisation de la variabilité inter-individuelle dans les modèles de croissance de plantes et sélection de modèles pour la prévision (Page 47-50)