• Aucun résultat trouvé

Données sur réseau : modèle de régression logistique avec

2.5 Modèles de régression spatiale sur réseau pour données binaires

2.5.2 Données sur réseau : modèle de régression logistique avec

Dans cette section, on présente deux types de modèles selon deux manières de mod-éliser le bruit : modèles logistiques avec dépendance spatiale et son extension à la dimension temporelle. Nous commençons à introduire deux type de modèles pour le bruit qui sera à chaque fois un champ Gaussien autocorrélé : le modèle auto-régressif conditionnel (CAR) Gaussien et le champ aléatoire Markov Gaussian (GMRF).

2.5.2.1 Modèles CAR et GMRF

Pour modéliser , une manière est de le considérer comme un champ aléatoire spa-tialement corrélé, avec E() = 0 et Cov() = Σ. On peut ensuite modéliser Σ à partir d'une fonction de covariance, d'un variogramme ou encore d'un modèle auto-régressif spatial. Pour les données sur un réseau, le modèle le plus souvent utilisé est le modèle auto-régressif. On donne un bref aperçu ici pour le modèle auto-régressif conditionnel Gaussien.

Supposons que pour i = 1, ..., n, i|−i est normal de moyenne et de variance

conditionnelles :

E(i|−i) = µi+X

j6=i

βij(j− µj) V ar(i|−i) = κ−1i (2.1)

où κi est la précision et µi est la moyenne. Sans perdre de généralité, on peut

supposer que i est de moyenne nulle, on impose alors µ1 = µ2 =, ..., = µn = 0 pour

la formule suivante.

p(i|−i) ∼ N (X

j6=i

βijj, κ−1i ) (2.2)

On appelle p(i|−i) les distributions conditionnelles complètes, ici elles sont

com-patibles : par le lemme de Brook (Brook, 1964), il existe une distribution unique déterminée par ces conditionnelles si ces lois conditionnelles satisfont une condition de factorisation. Sous l'hypothèse supplémentaire que

κiβij = κjβji for alli 6= j,

ces distributions conditionnelles correspondent à un distribution jointe Gaussienne

multivariée de moyenne 0 et de matrice de précision Q avec les éléments, Qii = κi

et Qij = −κiβij, i 6= j, ainsi Q est symétrique et dénie positive.

Un tel système de distributions conditionnelles est connu comme un système auto-normal (Besag, 1974). Habituellement, on suppose que la matrice de précision

Q est régulière ; cependant, les auto-régressions Gaussiennes conditionnelles avec

Q singulière sont également d'intérêt et connues comme Auto-Régressions

Condi-tionnelle Intrinsèque (ICAR), souvent utilisées comme loi a priori pour les modèles hiérarchiques.

Les auto-régressions conditionnelles gaussiennes avec une propriété de Markov sont également connues sous le nom de champs gaussiens de Markov (GMRF: Gaus-sian Markov Random Field).

Un GMRF est tout simplement un vecteur aléatoire  avec une distribution gaussienne, qui obéit à une certaine propriété d'indépendance conditionnelle (Pro-priété Markov). Notons G = (V, E) un graphe non-orienté avec un ensemble de n÷uds V = {1, 2, ..., n} et un ensemble d'arêtes E qui dénit la relation de voisinage entre les n÷uds.

Pour tout (i, j) ∈ ,i 6= j, (i, j) /∈ E, nous avons :

i⊥j|−{i,j} (2.3)

Ce qui signie que conditionnés sur −{i,j}, i et j sont indépendants si i et j ne

sont pas voisins. Et pour (i, j) ∈ E, i 6= j, i et j ne sont pas indépendants sachant

Méthodes statistiques et modélisation On donne une dénition formelle ici:

Denition 2.5.1 (GMRF) Un vecteur aléatoire  = (1, ..., n)t ⊂ Rn est appelé

un GMRF rapport avec le graphe marqué G = (V, E) avec une moyenne µ et une matrice de précision Q symétrique et dénie positive, si et seulement si sa densité est de la forme

π() = (2π)−n/2|Q1/2|exp(−1

2( − µ)

tQ( − µ)) (2.4)

D'après cette dénition, un GMRF rapport avec le graphe marqué G peut être caractérisé par sa matrice de précision Q.

Theorem 2.5.1 Soit  de distribution gaussienne avec une matrice de précision Q symétrique et dénie positive, alors pour i 6= j,

i⊥j| ⇐⇒ Qij = 0

Cet théorème signie que si le graphe d'association des données n'est pas dense (ce qui est plausible), la matrice de précision d'un GMRF est creuse.

En ce qui concerne les champs de Markov, le théorème d'Hammesley-Cliord et le lemme de Brook donnent l'existence d'une distribution jointe pour un GMRF et l'unicité du Champ de Markov résultant des conditionnelles. L'unicité est essentielle car, on voudrait s'assurer que les échantillons générés par ces lois conditionnelles approchent une seule distribution jointe.

2.5.2.2 Extension à la dimension temporelle

Pour prolonger les modèles GMRF et GF avec une dimension temporelle, les modèles hiérarchiques spatio-temporels sont les modèles les plus classiques.

it|Xit, it−1 ∼ Bernoulli(pit)

logit(pit) = Xt

itβ + it

it = it−1+ ωit

avec ωit un GF ou GMRF spatialement corrélé.

Ce type de modèles est souvent utilisé pour les pathogènes avec un patho-système clair. Par exemple, Jousimo et al. (2014) l'ont utilisé pour modéliser la dynamique de la présence-absence, colonisation, et extinction de pathogène (mildew) pour chaque population échantillonnée en Finlande.

Cependant dans le cas de l'esca, on n'a pas de patho-système clair et la car-actérisation des symptômes n'est pas stable : un cep malade n'exprime pas for-cément le symptôme foliaire. Pour étudier l'état d'infection des plantes, on mod-élise la propagation de la maladie pour les données spatio-temporelles cumulatives (l'infection par l'esca, observée par l'apparition de symptôme foliaire, devient état absorbant). Néanmoins, le modèle hiérarchique auto-régressif d'ordre 1 peut quand même être utilisé pour étudier le processus d'expression des symptômes foliaires. L'expression et la re-expression des symptômes foliaires sont considérés comme un résultat d'interactions entre l'environnement, l'hôte et le pathogène, il est intéressant d'identier les facteurs qui entrainent ce processus.

Pour modéliser la propagation de la maladie à partir des données cumulatives, Kaiser et al. (2014) proposent d'utiliser une séquence de champs aléatoires binaires. C'est-à-dire que, dans le modèle, au lieu d'intégrer un processus auto-régressif tem-porel stochastique, on intègre une covariable du passé qui est calculée par les données d'observations des années précédentes.

2.5.2.3 Bénéces de la structure hiérarchique

Les modèles présentés dans cette section sont composés d'une régression logis-tique avec une composante spatiale ou spatio-temporelle aléatoire . Les modèles sont structurés hiérarchiquement grâce à ce processus latent non-observé. Ici nous donnons d'abord une présentation générale du modèle hiérarchique (Gaetan and Guyon, 2008), puis nous décrivons les structures hiérarchiques spatiales et spatio-temporelles.

La loi jointe des trois variables aléatoires peut toujours être décomposée par les lois conditionnelles successives:

[U, V, W ] = [W |U, V ][V |U ][U ], (2.5)

Supposons que le processus d'intérêt  est non-observé (latent) et que les données

Z sont modélisées conditionnellement à , nous avons une structure hiérarchique de

trois niveaux d'après Equation 2.5:

[Z, , θZ, θ] = [Z|, θZ, θ][|θ][θZ, θ] (2.6)

Au niveau le plus bas pour le processus de données, la loi de Z est conditionnelle à

 et aux paramètres du modèle (θZ, θ); au niveau intermédiaire pour le processus

latent, le processus  est déni conditionnellement à ses paramètres θ; le troisième

niveau du processus spécie les incertitudes sur les paramètres du modèle.

Dans cette section le processus latent  est soit un processus spatial (subsec-tion 2.5.1) soit spatio-temporel (subsubsec(subsec-tion 2.5.2.2). Il décrit un phénomène spatial ou spatio-temporel auto-corrélé (subsection 2.5.1) en spéciant que  est un champ Gaussien décrivant un phénomène spatial dans lequel deux points plus proches sont plus corrélés que deux points lointains. Dans la subsubsection 2.5.2.2 nous décrivons un phénomène spatio-temporel en explicitant le comportement spa-tial et temporel Cressie and Wikle (2011), la structure spaspa-tiale est caractérisée par un champ Gaussien et la dépendance temporelle est spéciée par un processus auto-régressif d'ordre 1, c'est-à-dire un processus à un pas de mémoire.

L'inférence Bayésienne nous permet d'obtenir des distributions a posteriori et s'eectue directement à partir de ces spécications conditionnelles de la structure hiérarchique.

2.5.2.4 Inférence et discussion

En comparant avec les modèles géostatistiques, les modèles auto-régressifs condi-tionnels (CAR) dans un cadre Bayésien permettent des calculs très pratiques. La spécication conditionnelle est bien adaptée aux algorithmes MCMC qui cherchent la loi posteriori par les lois conditionnelles (Banerjee et al., 2014).

Méthodes statistiques et modélisation Bien que les modèles soient faciles à implémenter, il subsiste de nombreuses dicultés théoriques et numériques : d'une part, la matrice de précision a besoin de conditions supplémentaires pour garantir son caractère déni positif. D'autre part, pour les modèles auto-régressifs sans propriété de Markov, la matrice de covariance ainsi que la matrice de précision sont de rang plein, l'inférence peut être très lourde à calculer, notamment pour le paradigme bayésien. De plus on doit générer la simulation de ces matrices pour chaque itération.

Le fait que la matrice de précision soit creuse dans de nombreux cas, donne un avantage à utiliser ce modèle pour l'inférence car cela réduit le coût de calcul. En fait, des opérations d'algèbre linéaire peuvent être eectuées en utilisant des méthodes numériques pour matrices creuses, ce qui entraîne un gain de calcul considérable.

Par exemple, la factorisation de la matrice, qui exige habituellement O(n3) pour

une matrice dense, se réduit à O(n), O(n3/2) et O(n2) pour les matrice creuses de

GMRFs temporelle, spatiale et spatio-temporelle respectivement (Cameletti et al., 2013).

De plus, les propriétés de calcul de GMRFs sont améliorées en utilisant Integrated Nested Laplace Approximations (Rue et al., 2009) pour l'inférence bayésienne. Cette méthode donne une approximation de la distribution a posteriori rapide et assez précise.

Cependant, ce type de modélisation via les lois conditionnelles présente égale-ment des inconvénients importants. Au contraire des modèles géo-statistiques, la spécication via le graphe de voisinage ne garantit pas l'égalité des variances marginales, ou l'égalité des covariances pour chaque paire de voisins, sauf pour cer-taines structures de graphe très spéciales (Besag and Kooperberg, 1995, Lavigne, 2013).

Récemment, Lindgren et al. (2011) ont proposé d'adapter les GMRF aux données observées sur un champ continu. Ils utilisent une représentation d'éléments nis pour dénir un champ de Matérn comme la combinaison linaire des fonctions de la base dénies sur une triangulation du domaine. Cette présentation combine GMRF et Champ Gaussien en utilisant les équations aux dérivées partielles stochastiques.

Pour le cas de l'esca, on dispose d'un jeu de données spatio-temporelles très large. Donc le temps de calcul est un des facteur les plus importants pour l'application. La méthode INLA (Integrated Nested Laplace Approximations), premièrement intro-duit par Rue et al. (2009) et utilisant des SPDE, donne une inférence très pratique et rapide pour les modèles GMRFs. Pour notre travail de thèse, nous allons l'utiliser pour modéliser la maladie. Ces études sont présentées dans le chapitre 5.

Documents relatifs