partie V Conclusion et perspectives
9.2 Extensions de CASA en vue de perspectives d’application
sont ´etroitement li´ees aux limites des lois de Poisson multivari´ees, `a savoir le fait de ne pas
permettre des corr´elations n´egatives au sein des classes et le rapport d’´egalit´e de moyenne
et de variance de la loi de Poisson, qui limite la forme des classes.
Pour avoir un mod`ele g´en´eral qui puisse s’adapter `a la diversit´e des types de donn´ees
en ´ecologie, ainsi qu’`a des donn´ees corr´el´ees de plusieurs types (mixed mode data), nous
avons propos´e dans la partie III un mod`ele latent gaussien (figure 9.2 (b)), o`u les divers
types de donn´ees sont obtenus par diff´erentes fonctions de lien et distributions univari´ees,
ind´ependantes conditionnellement `a la variable latente gaussienne. Ce mod`ele et sa m´ethode
d’estimation sont adapt´es `a la classification dans la partie IV, en rempla¸cant l’hypoth`ese
d’une loi gaussienne sousjacente par une hypoth`ese de m´elange gaussien sousjacent. On
obtient ainsi un “mod`ele de m´elange gaussien latent” (figure9.2 (c)). Ce mod`ele b´en´eficie
des avantages des lois gaussiennes multivari´ees, qui sont d’une part tr`es souples en termes de
gamme de corr´elations et de formes de classes permises, et d’autre part ais´ees `a manipuler
et `a estimer dans un cadre multivari´e. Cependant, la structure latente du mod`ele, qui lui
conf`ere cette richesse en termes de formes de classes et types de donn´ees, engendre dans
certains cas des difficult´es pratiques de mise en œuvre de cette m´ethode de classification.
Ces difficult´es, discut´ees en 8.6, et dont la plus limitante est l’initialisation dans les cas
fortement non gaussiens, restent encore `a r´esoudre.
(a) M´elange gaussien (b) Mod`ele gaussien latent (c) M´elange gaussien latent
Fig. 9.2. Graphes orient´es acycliques (Directed Acyclic Graph ou DAG) des trois mod`eles
Par la suite, nous pr´esentons quelques perspectives de la m´ethode CASA, d’abord sous
l’angle des applications, qui permettent d’illustrer, sur les deux jeux de donn´ees ´ecologiques
pr´esent´es en introduction (en 1.4.1 et 1.4.2), l’utilit´e des extensions de CASA que nous
envisageons, ensuite sous un angle qui int`egre la dimension temporelle des donn´ees et des
processus ´ecologiques.
9.2 Extensions de CASA en vue de perspectives d’application
Nous pr´esentons ici quelques extensions de CASA en illustrant leur utilit´e sur des
appli-cations, notamment sur les deux jeux de donn´ees ´ecologiques pr´esent´es en introduction (en
136 9 Les assemblages : un outil d’´etude des interactions entre esp`eces
9.2.1 Extension de l’´etape de classification de CASA
Une premi`ere extension consiste `a int´egrer la m´ethode de classification ´etudi´ee dans
le chapitre 8 dans CASA, pour proposer une m´ethode CASA g´en´eralis´ee `a des types de
donn´ees vari´es.
Etude des assemblages dans le syst`eme hˆote-pathog`ene plantain-o¨ıdium grˆace
au mod`ele hi´erarchique Normal-Binomial
Pour illustrer l’utilit´e de cette d´emarche, nous prenons l’exemple de donn´ees consid´er´ees
dans le paragraphe 1.4.2. Ces donn´ees ont ´et´e analys´ees avec la m´ethode CASA dans le
chapitre4, qui a permis de mettre en ´evidence cinq assemblages diff´erents des deux esp`eces
plantain (plante hˆote) et o¨ıdium (pathog`ene), dont l’analyse spatiale a r´ev´el´e l’existence d’un
gradient d’infection du nord-est au sud-ouest des ˆıles ˚Aland. Nous rappelons que les donn´ees
brutes d’abondances d’esp`eces sont des surfaces dans le cas du plantain et des occurrences
(pr´esence-absence) dans le cas de l’o¨ıdium, et que celles-ci ont dˆu ˆetre agr´eg´ees (dans le
temps et l’espace) afin d’obtenir des donn´ees pseudo-continues, qui puissent ˆetre class´ees
sous l’hypoth`ese gaussienne. Dans le paragraphe 3.2.1, nous avons soulev´e les probl`emes
pos´es par cette agr´egation des donn´ees d’abondances, notamment la perte d’information
sur les tailles de parcelles de plantain, qui masque ainsi l’influence potentielle de la taille
des parcelles sur la fr´equence d’infection.
Grˆace au mod`ele propos´e dans la partie III, nous pouvons envisager la prise en compte
des donn´ees brutes. Afin de garder l’information sur la taille des parcelles de plantain,
nous proposons d’agr´eger les donn´ees uniquement dans le temps. Le mod`ele qui semble
le plus adapt´e pour ce jeu de donn´ees est le mod`ele Normal-Binomial, d´efini en 8.3.2,
avec une fonction de lien logarithme (g
1
= log) pour la variable continue, qui est ici la
surface moyenne couverte par le plantain sur chaque parcelle au cours des 7 ann´ees, et
avec l’effectif de la binomiale fix´e `a 7 (n
b = 7) pour la variable discr`ete, qui est ici le
nombre d’occurrences de l’o¨ıdium sur les 7 ann´ees (2001–2008). Ceci revient `a supposer que
l’occurrence de l’o¨ıdium sur une parcelle est une ´epreuve de Bernoulli, ind´ependante entre
parcelles conditionnellement `a la variable latente gaussienneθ, et qui a la mˆeme probabilit´e
p de succ`es au cours des 7 ann´ees pour une parcelle donn´ee. On compte ainsi le nombre
de “succ`es d’infection” sur les 7 ann´ees de suivi, ce qui correspond `a l’hypoth`ese d’une
distribution binomiale. Enfin, la fonction de lien logarithme sert `a diminuer la tr`es forte
dispersion des donn´ees de surface.
Nous avons estim´e ce mod`ele sous l’hypoth`ese d’une seule classe d’assemblage, c’est-`
a-dire sous le mod`ele hi´erarchique Normal-Binomial sans m´elange de lois. Les r´esultats de
convergence des param`etres de ce mod`ele, obtenus par l’algorithme MCEM initialis´e par la
m´ethode des moments (`a l’aide d’un algorithme it´eratif similaire `a celui pr´esent´e en 7.7.2,
mais adapt´e au cas Normal-Binomial), sont pr´esent´es sur la figure 9.3. Une corr´elation
positive (r = 0.4 avec un ´ecart-type asymptotique de 0.026) est estim´ee entre la surface
9.2 Extensions de CASA en vue de perspectives d’application 137
−2 0 2 4 6
0
1
2
3
4
5
6
7
(a)
y
1
y
2
0 100 200 300 400 500
0
2000
4000
6000
8000
10000
(b)
iteration
N
0 100 200 300 400 500
−4
−3
−2
−1
0
(c)
iteration
µ2
0 100 200 300 400 500
1
2
3
4
5
(d)
iteration
σ22
0 100 200 300 400 500
0.0
0.1
0.2
0.3
0.4
0.5
(e)
iteration
r
Fig. 9.3.Ajustement du mod`ele Normal-Binomial (sans m´elange) sur les donn´ees plantain-o¨ıdium. (a) Les
donn´ees :y
1 : logarithme des surfaces de plantain observ´ees sur chacune des 2639 parcelles ety
2 : nombre
d’occurrences de l’o¨ıdium sur les 7 ann´ees d’´etudes (2001–2008), (b) La taille de l’´echantillon d’importance
N augmente de 50 `a 10000, (c)–(e) Convergence des param`etres moyenneµ
2, varianceσ
22 et corr´elationr
atteinte sur 500 it´erations.
moyenne du plantain par parcelle et le nombre d’occurrences de l’o¨ıdium, qui montre qu’il y
a une influence positive de la taille des parcelles sur la probabilit´e d’occurrence de l’o¨ıdium.
Pour des contraintes de temps et `a cause de probl`emes d’initialisation qui restent `a
r´esoudre pour pouvoir appliquer la m´ethode de classification pr´esent´ee dans la partie IV,
nous n’avons pas pu tester l’hypoth`ese de l’existence de plusieurs assemblages, que nous
avions mis en ´evidence dans le chapitre4 sur une version transform´ee de ce jeu de donn´ees.
Enfin, une question qui apparaˆıt lors de l’´etude de ce jeu de donn´ees et qu’il faudrait
approfondir est : quelle quantit´e d’information faut-il dans les donn´ees, afin de pouvoir
estimer tous les param`etres du mod`ele (de la gaussienne sousjacente ou du m´elange gaussien
sousjacent) ? Pour pouvoir r´epondre, il faudrait ´etablir les propri´et´es d’identifiabilit´e des
diff´erents sousmod`eles qui peuvent ˆetre consid´er´es ici, tels que le mod`ele Normal-Bernoulli
ou le mod`ele Normal-Binomial. En effet, il se pourrait que le mod`ele Normal-Bernoulli, et le
mod`ele Normal-Binomial `a faible effectif, ne soient identifiables que sous certaines conditions
(variance de la gaussienne sousjacente fix´ee, ou, dans le cas avec m´elange, imposition de
contraintes entre classes sur les matrices de covariance des composantes).
138 9 Les assemblages : un outil d’´etude des interactions entre esp`eces
Etude des assemblages de pucerons grˆace au mod`ele MPLN
Le jeu de donn´ees 1.4.1 a ´et´e ´etudi´e dans le chapitre 5 en supposant que les donn´ees
´etaient issues d’un m´elange de lois de Poisson multivari´ees. Nous avons vu qu’aucun des
deux crit`eres BIC et ICL ne permettait de choisir un nombre de classes “raisonnable” (pour
qu’elles puissent repr´esenter des assemblages interpr´etables), et nous en avons conclu que les
limites de forme de classe des lois de Poisson sont `a l’origine de cette mauvaise ad´equation.
La classification bas´ee sur des m´elanges de MPLN, qui permet `a la fois une corr´elation
n´egative et des donn´ees surdispers´ees par rapport `a la loi de Poisson au sein de chaque
classe, semble adapt´ee `a ce jeu de donn´ees et devra ˆetre test´ee. Pour cela, des travaux
suppl´ementaires sur l’initialisation et sur la stabilit´e de l’algorithme doivent ˆetre men´es,
notamment par l’introduction de mod`eles contraints.
9.2.2 Extensions de l’´etape d’analyse spatiale de CASA
Des ´evolutions de l’´etape d’analyse spatiale peuvent ˆetre envisag´ees `a plusieurs niveaux :
la mise au point ou l’adaptation de nouveaux outils d’analyse spatiale, notamment pour des
espaces non euclidiens, l’int´egration de covariables dans l’analyse spatiale, ou encore
l’uti-lisation de la d´emarche de l’´etape d’analyse spatiale dans d’autres domaines d’application.
Proposer des outils d’analyse spatiale pour des supports arborescents :
application `a l’´etude des assemblages de pucerons sur rameaux
Un des arguments que nous avons donn´e pour montrer la flexibilit´e de la m´ethode CASA
et de la notion d’assemblage d’esp`eces que nous avons d´efini, qui s’affranchit de
l’auto-corr´elation spatiale des donn´ees, a ´et´e de dire que l’adaptation de cette m´ethode `a des
espaces non euclidiens en sera ainsi facilit´ee. Le jeu de donn´ees de comptages de pucerons
(1.4.1) illustre ce propos. Une extension de CASA pourrait proposer une plus large gamme
d’outils d’analyse spatiale, afin de permettre l’analyse spatiale d’assemblages d’abondances
sur des espaces non euclidiens. Par exemple, l’adaptation de m´ethodes de statistiques
spa-tiales pour des supports hi´erarchiques pourrait ˆetre envisag´ee (Garretta, Monestiez & Ver
Hoef,2010).
Tenir compte des covariables
Comme nous l’avons mentionn´e dans la discussion du chapitre 8, lorsqu’on suspecte
l’influence de certains facteurs environnementaux sur la distribution des assemblages, on
peut envisager de prendre en compte des covariables environnementales dans la classification
en proposant des m´elanges de GLMM (Martinez, Lavergne & Trottier, 2009).
Une autre approche consiste `a tenir compte des covariables seulement apr`es la
classifica-tion, de la mˆeme mani`ere que l’analyse spatiale est consid´er´ee seulement dans la deuxi`eme
´etape de CASA. La premi`ere ´etape de CASA aura ainsi servi `a d´efinir des assemblages,