• Aucun résultat trouvé

3.4 Illustration

3.4.1 Modèle SIR

`(y0, . . . , yn; θ) = log ˜p(y0; θ) +

n

X

k=1

log ˜p(yk|y0, . . . , yk−1; θ). (3.6)

D’après les équations (3.4)-(3.5), les densités conditionnelles ˜p(yk|y0, . . . , yk−1; θ), k = 1, . . . , n sont gaussiennes. Le calcul de (3.6) nécessite uniquement la connaissance des espé-rances ˆXket variances ˆΞkde ces densités. Celles-ci s’obtiennent récursivement en utilisant les prédictions d’un filtre de Kalman décentré dont l’itération k, k = 1, . . . , n s’écrit :

k = Yk− B ˆXk, Γk = B ˆΞkBt+ Qk, Hk = AkΞˆkBtΓ−1k , ˆ Xk+1 = Fk+1+ AkXˆk+ Hkk, ˆ Ξk+1 = (Ak− HkB)ˆΞkAtk+ Tk+1, sous réserve d’inversibilité de Γk.

3.4 Illustration

3.4.1 Modèle SIR

Dans [S2], nous illustrons notre approche sur l’exemple simple d’un système SIR. Il comprend trois compartiments correspondant respectivement aux individus susceptibles d’être infectés (S), infectieux (I), et immunisés après guérison (R) (voir Figure 3.1). Il constitue la brique de base des modèles compartimentaux de dynamiques épidémiques.

Dans le formalisme des équations différentielles ordinaires (équation (3.2)), il est défini par ds dt = −λ si N, di dt = −λ si N − γi, dr dt = γi,

avec s(t) + i(t) + r(t) = N pour tout t ≥ 0. Ici, x(t) = (s(t), i(t)). Dans ces équations, les différents termes traduisent le caractère mécaniste du modèle, λ est le taux de transmis-sion, γ est le taux de guérison (ou l’inverse de la durée d’infectiosité) et N est la taille de la population.

Dans le formalisme stochastique des processus de saut, Z(t) = (S(t), I(t)) est le vecteur des effectifs dans les compartiments S et I à l’instant t. Les taux de transition correspon-dant aux deux événements possibles infection et guérison sont respectivement :

Q(S,I),(S−1,I+1)= λSI

Il s’agit d’un modèle densité dépendant où β(−1,1)= λ et β(0,−1) = γ.

3.4.2 Etude sur données simulées

Nous étudions les performances de notre méthode d’estimation sur des jeux de données simulés. Dans chaque situation, 500 épidémies de type SIR sont simulées selon le modèle de processus de saut associé. Pour chaque épidémie, n observations régulièrement espacées sont simulées selon un tirage binomial de probabilité p sur le compartiment des infectés. Aucune erreur de mesure supplémentaire n’est considérée (τ = 0). On suppose par ailleurs l’absence de personnes immunisées au début des épidémies, c’est-à-dire s0+ i0= 1. Les paramètres inconnus θ = (λ, γ, p, i0) sont estimés sur chaque trajectoire par optimisation numérique de la pseudo-vraisemblance gaussienne (section 3.3). Les estimations sont comparées avec celles obtenues par Maximum Iterated Filtering [Ionides E. L. et al., 2006], un algorithme de Monte-Carlo séquentiel. Différents scénarios correspondant à différentes valeurs des paramètres λ et γ sont considérés dans notre étude, ainsi que différentes valeurs de N (taille de population), de n (nombre d’observations par épidémie) et de p (taux de report des infectés). Je montre dans les Tables 3.1 et 3.2 les résultats obtenus pour λ = 1, γ = 1/3, avec pour conditions initiales s0 = 0.95 et i0 = 0.05. La Table 3.1 correspond à un taux de report p = 0.8 et la Table 3.2 correspond à un taux de report p = 0.3.

Résultats. Les résultats des Tables 3.1 et 3.2 illustrent les bonnes propriétés des esti-mateurs obtenus par maximisation de la vraisemblance du modèle gaussien approché. On constate une amélioration de la précision des estimations à mesure que N augmente ; celle-ci est liée à la validité en grande population de l’approximation par processus gaussien des dynamiques épidémiques. Le nombre d’observations par épidémie joue aussi un rôle important dans la qualité des estimations de certains paramètres, avec diminution du biais et des écart-types lorsque n augmente. Le paramètre de report p détermine en quelques sortes l’intensité du signal : plus sa valeur est faible, plus l’information disponible sur les dynamiques épidémiques est faible. Sans surprise, le biais et la précision des estimations sont meilleures pour p = 0.8 (Table 3.1) que pour p = 0.3 (Table 3.2). La modification de p affecte de la même façon la qualité des résultats fournis par Maximum Iterated Filtering. Les estimations obtenues par notre approche et celles obtenues par Maximum Itera-ted Filtering sont par ailleurs très proches dans l’ensemble. Précisons que contrairement à notre approche, cette seconde méthode estime ici les paramètres à partir du modèle géné-ratif associant processus de saut pour la dynamique épidémique et tirage binomial sur le compartiment des infectés pour les observations. La mise en œuvre du Maximum Iterated Filtering nécessite de nombreux réglages algorithmiques, en particulier celui du nombre de particules. Ces réglages sont difficiles pour des utilisateurs non spécialistes et s’avèrent dé-terminants pour estimer correctement les paramètres. Nous avons également remarqué une forte sensibilité du Maximum Iterated Filtering aux initialisations des paramètres. Notre approche ne nécessite pas ces réglages délicats.

Nous avons envisagé d’autres valeurs de paramètres, en particulier pour λ et γ ; les résultats ne sont pas reportés dans ce manuscrit mais j’en donne les idées principales. L’objectif était d’examiner l’impact sur les estimations de la valeur du ratio R0= λ/γ qui définit le taux de reproduction de base, une quantité centrale en épidémiologie correspon-dant au nombre de cas secondaires générés par chaque personne infectieuse. Si R0 < 1, le pathogène ne peut pas déclencher d’épidémie. Pour λ = 1 et γ = 1/3 (Tables 3.1 et 3.2), ce ratio vaut 3 et correspond à des épidémies à propagation relativement rapide. Nous avons également considéré un taux de reproduction de base plus faible, en utilisant λ = 0.6 et γ = 0.4, soit R0 = 1.2. Les résultats sont légèrement dégradés par rapport à ceux obtenus lorsque R0 = 3 mais révèlent les mêmes tendances en termes de biais et de précision des

estimations. L’estimation des paramètres épidémiques est plus difficile pour des valeurs de R0 plus faibles. En effet, plus le R0 est petit, plus l’intensité du signal disponible à travers les observations des personnes infectées est faible dans l’ensemble, les épidémies se propageant plus lentement, avec un pic épidémique moins marqué et avec une probabilité d’extinction précoce plus élevée.

D’autre part, observer le compartiment des susceptibles (S) plutôt que le comparti-ment des infectés (I) donne lieu à des résultats similaires en ce qui concerne les influences respectives de N , n, p et R0 sur les résultats.

Cette étude de simulations approfondie révèle tout de même des difficultés à estimer les conditions initiales s0 et i0 des dynamiques épidémiques. Cette difficulté est rarement mentionnée dans la littérature, et est généralement contournée par le recours à des a priori bayésiens. Ceci soulève la question de l’identifiabilité des conditions initiales.

Table 3.1 – Résultats obtenus pour λ = 1, γ = 1/3, s0 = 0.95, i0 = 0.05 et p = 0.8. Pour chaque combinaison (N, n), les résultats consistent en la moyenne empirique des estimations et leur écart-type empirique (entre parenthèses) obtenus par notre approche (K) et par Maximum Iterated Filtering (M).

θ N = 1000 N = 2000 N = 10000 n = 30 n = 100 n = 30 n = 100 n = 30 n = 100 λ = 1 K 1.02 1.00 1.03 0.98 1.01 1.00 (0.08) (0.07) (0.07) (0.06) (0.04) (0.03) M 1.00 1.00 1.02 1.01 1.01 1.01 (0.07) (0.06) (0.05) (0.05) (0.02) (0.02) γ = 1/3 K 0.32 0.33 0.31 0.34 0.32 0.34 (0.04) (0.03) (0.03) (0.02) (0.02) (0.02) M 0.32 0.34 0.31 0.34 0.32 0.34 (0.03) (0.02) (0.03) (0.02) (0.02) (0.01) p = 0.8 K 0.76 0.80 0.75 0.81 0.77 0.81 (0.11) (0.07) (0.09) (0.06) (0.06) (0.06) M 0.76 0.81 0.73 0.81 0.75 0.80 (0.09) (0.04) (0.07) (0.03) (0.05) (0.04) i0= 0.05 K 0.056 0.054 0.052 0.045 0.052 0.050 (0.011) (0.011) (0.008) (0.009) (0.004) (0.005) M 0.055 0.052 0.054 0.052 0.053 0.050 (0.009) (0.005) (0.007) (0.004) (0.004) (0.003)

Table 3.2 – Résultats obtenus pour λ = 1, γ = 1/3, s0 = 0.95, i0 = 0.05 et p = 0.3. Pour chaque combinaison (N, n), les résultats consistent en la moyenne empirique des estimations et leur écart-type empirique (entre parenthèses) obtenus par notre approche (K) et par Maximum Iterated Filtering (M).

θ N = 1000 2000 10000 n = 30 n = 100 n = 30 n = 100 n = 30 n = 100 λ = 1 K 1.00 1.03 1.02 1.02 1.00 1.02 (0.10) (0.08) (0.07) (0.06) (0.04) (0.03) M 1.02 1.03 1.01 1.01 1.00 1.01 (0.06) (0.08) (0.05) (0.05) (0.02) (0.02) γ = 1/3 K 0.33 0.32 0.32 0.32 0.34 0.32 (0.04) (0.05) (0.04) (0.04) (0.03) (0.02) M 0.32 0.32 0.33 0.33 0.34 0.31 (0.06) (0.05) (0.03) (0.03) (0.02) (0.02) p = 0.3 K 0.28 0.27 0.29 0.29 0.31 0.29 (0.05) (0.05) (0.04) (0.04) (0.03) (0.03) M 0.28 0.26 0.29 0.27 0.30 0.28 (0.04) (0.04) (0.03) (0.03) (0.02) (0.02) i0= 0.05 K 0.047 0.045 0.051 0.049 0.048 0.052 (0.012) (0.011) (0.007) (0.007) (0.004) (0.004) M 0.048 0.052 0.051 0.053 0.050 0.053 (0.010) (0.009) (0.007) (0.006) (0.004) (0.003)

CHAPITRE

4

Projets de recherche

Je présente maintenant quelques perspectives de recherche. Comme le montrent les chapitres principaux de ce document de synthèse, mes activités combinent développement méthodologique, recherche théorique, et applications. Je souhaite maintenir cet équilibre stimulant et ainsi continuer à travailler sur des problèmes statistiques inspirés de questions appliquées. Si jusqu’à présent, l’essentiel de mes recherches a été alimenté de questions issues de la pharmacologie et de l’épidémiologie, mes activités d’enseignant-chercheur à AgroParisTech et ma délégation dans l’unité INRAE MaIAGE de Jouy-en-Josas m’ont également sensibilisée aux questions statistiques soulevées par d’autres applications. Ainsi certaines perspectives évoquées dans mon projet de recherche concernent les sciences du végétal ou encore l’écologie du mouvement. Mes perspectives de recherche s’articulent autour de plusieurs axes.

4.1 Méthodes statistiques pour l’analyse de modèles à effets

mixtes

Documents relatifs