• Aucun résultat trouvé

Modélisation statistique d'un événement rare : les comptes de vecteurs

Article 5 : Dry season determinants of malaria disease and net use in Benin, West Africa

5.3 Modélisation statistique d'un événement rare : les comptes de vecteurs

Afin de choisir une méthode de modélisation adaptée aux données, il convient de décrire la distribution statistique de la variable à expliquer, ici le nombre de vecteurs capturés en chaque point de collecte durant chaque mission.

La capture sur sujet humain est une technique de comptage (d'un nombre de moustiques venant en contact de l'appât). La distribution statistique traditionnellement utilisée pour décrire des données de comptages est la distribution de Poisson qui est valable sous l'hypothèse d'une équi-dispersion des données (moyenne égale à la variance). Cependant, les données issues de comptages d'anophèles sont souvent surdispersées (variance supérieure à la moyenne). L'une des raisons de cette surdispersion est le caractère "zero-inflated" des comptages, c'est-à-dire qu'il y a plus de "zéros" (cas où aucun vecteur n'est capturé) qu'attendus sous l'hypothèse d'une distribution de Poisson. Par ailleurs, le plan d'échantillonnage des captures révèle une structure hiérarchique des données (différents niveaux de collecte): à l'échelle du village, de la maison de capture et de la position du captureur (intérieur ou extérieur). Cette structure nécessite l'introduction d'effets aléatoires dans le modèle afin de tenir compte des différentes sources de variabilité des observations.

Dans l'Article 6 qui suit, nous avons vérifié si les données de capture de l'essai étaient surdispersées et zero-inflated et nous avons cherché à savoir quelle distribution statistique les décrivait le mieux. De plus, un modèle mixte à classes latentes (MacLachlan and Peel 2000) a été proposé pour analyser ces données en fonction de variables environnementales et descriptives des villages. Les modèles mixtes à classes latentes combinent les modèles mixtes pour tenir compte des corrélations entre des mesures répétées et les modèles à classes latentes pour discriminer des groupes homogènes de villages.

Cette analyse ayant été réalisée avant que l'ensemble des variables identifiées lors de la modélisation conceptuelle ne soient traitées, seule une partie des variables explicatives potentielles y sont utilisées. Les données pluviométriques sont issues de 8 stations météorologiques encerclant la zone d'étude et ont été traitées suivant le même protocole que les données TRMM.

Article 6 : Use of a mixture statistical model in studying malaria vectors density Bousari O., Moiroux N., Iwaz J., Djenontin A, Bangana ASB, Corbel V, Fonton N,

Ecochard R,

Plos One (Accepted) 2012.

Résumé

En raison de la surdispersion des données de capture de vecteurs qui peut résulter d'un excès de zéros, très souvent, les données de comptage ne respectent pas les hypothèses de la distribution de Poisson (P). Le modèle « Zero Inflated Poisson » (ZIP) est l’une des méthodes développées (Lambert 1992) pour gérer cette surdispersion due à la surreprésentation de zéro. Le ZIP est le mélange d'une distribution de Poisson et d'une « masse de Dirac13 » en zéro. Une catégorie de modèles dédiée à la prise en compte de la surdispersion dans les comptes est celle des distributions dites à deux niveaux (Hinde and Demétrio 1998) : le paramètre de la distribution des observations (premier niveau) est supposé avoir lui-même une certaine distribution (deuxième niveau). C’est le cas de la distribution binomiale négative (NB) qui suppose que les observations sont issues d’un mélange continu de Poisson dont les moyennes sont des réalisations d’une loi Gamma. A partir du modèle NB a été construit le modèle «Zero Inflated Negative Binomial » (ZINB) sur le même principe que celui du ZIP. Une variante de ces distributions à deux niveaux est obtenue en se prévalant de l’hypothèse de la distribution du deuxième niveau, il s'agit des modèles de mélange dont les paramètres peuvent être estimés par une approche non paramétrique du maximum de vraisemblance (Aitkin 1996). Les modèles de mélange non paramétriques considérant plus de deux distributions de Poisson peuvent ainsi être adaptés à la gestion de la surdispersion dans le cas des données de capture de vecteurs.

Nous proposons donc dans ces travaux l'utilisation d'un modèle de mélange non paramétrique de distributions de Poisson (ou modèle à classes latentes) (NPMP) pour décrire la distribution de nos données et les analyser en fonction de covariables environnementales ou

13

Masse de Dirac : se dit d’une distribution dans laquelle tous les individus statistiques ont la même valeur (en général 0), une distribution de Dirac prends donc la forme d’une demi droite confondue avec l’axe des

descriptives des villages. Il a été possible par ailleurs de tenir compte dans ce modèle, du niveau hiérarchique «village» de collecte des données. De plus, ce modèle permet de classer les villages dans des groupes homogènes (classes latentes) de densité vectorielle, après la prise en compte des covariables.

Dans ces travaux, nous avons d’abord étudié graphiquement la relation entre les moyennes et les variances des observations afin de mettre en évidence une éventuelle surdispersion. Nous avons ensuite analysé la capacité des distributions P, NB, ZIP, ZINB et NPMP à décrire la distribution réelle des données de captures d'anophèles (An. gambiae s.s. et

An. funestus cumulés) collectés durant 8 missions réalisées en 2009, après la mise en place

des interventions de lutte anti-vectorielle. Les qualités des prédictions des distributions ont été comparées par la méthode du maximum de vraisemblance. Par la suite un modèle NPMP multivarié avec 4 classes latentes a été élaboré en tenant compte d’un effet aléatoire au niveau « village ». Les villages ont été répartis en classes sur la base du maximum des probabilités a posteriori (MAP) d’appartenance aux différentes classes latentes fournies par le modèle (Nagin and Odgers 2010). Afin d'analyser l'effet des interventions sur les densités de vecteurs, la classification des villages obtenue par la méthode du MAP a été comparée au regroupement des villages utilisé pour l'implémentation des 4 méthodes de lutte à l'aide d'un test de Kruskall-Wallis.

L’étude des relations linéaires entre les variances et les moyennes (des données de chaque village, mission ou couple village-mission) révèle des pentes toutes supérieures à 1 indiquant la surdispersion des données. 74,7% des comptes de vecteur étaient égaux à zéro alors que sous l’hypothèse de Poisson ce pourcentage était estimé à 43,38%. Ceci confirme le caractère zero-inflated des données. Les distributions ZIP, NB et NPMP étaient capables de prédire la proportion de zéro (respectivement 74,7%, 74,9%, and 74,7%) et les distributions NB, ZINB et MP étaient les meilleures pour prédire nos données. Dans le modèle NPMP multivarié à 4 classes latentes, la présence de maraîchage, la densité de population, les précipitations moyennes, le nombre de jours de pluie moyen sur les 8 missions et la position en extérieur du captureur étaient positivement corrélés avec le nombre de vecteurs capturés sur homme. A l'opposé, la distance au lac Toho, la présence d'adduction d'eau, la présence d'élevage bovin, la forme groupée du village et le NDVI moyen du village étaient négativement corrélés aux densités de vecteurs. Nous n’avons pas pu mettre en évidence de

des différentes méthodes de lutte sur les densités de vecteurs confirmant les résultats de l'essai clinique (chapitre 3).

Ces résultats mettent en évidence les caractéristiques des données de comptage d'anophèles telles que la surdispersion et l'excès de zéro qui ne peuvent être correctement traité par un simple modèle de Poisson. Le modèle de mélange à classe latente s'est révélé être pertinent pour l'analyse de ces données et a mis en évidence plusieurs facteurs influençant les densités de vecteurs dans les villages.

Par ailleurs, la classification a posteriori obtenue à partir de ce modèle pourrait être utile en amont d'études pour améliorer les protocoles, par exemple en adaptant l'effort d'échantillonnage en fonction du village et de la période. Une telle classification pourrait également être employée pour l'allocation de traitements dans le cadre d'essais contrôlés randomisés lorsqu'un échantillonnage stratifié est nécessaire.

Cette première analyse nécessite cependant d'être améliorée en faisant la distinction entre les différentes espèces vectrices dont les préférences écologiques sont susceptibles de varier. En effet, on peut supposer que les variables qui étaient significativement corrélées avec les comptes de vecteur totaux puissent agir de manière différente sur chacune des espèces de vecteur. Enfin, dans l'Article 6, les différents points de capture dans les villages ont été considérés comme des réplications indépendantes. Il conviendrait d'introduire dans les modèles un effet aléatoire au niveau du point de capture afin de prendre en compte la variabilité qui leur est propre.