• Aucun résultat trouvé

Approche maladie

2. Modélisation statistique du risque de FCO

2.4. Validation interne et externe des modèles

Les modèles ont été validés en interne (sur les 80 élevages de l’extrême sud de la Corse

ayant servi à construire les modèles) et en externe (sur les élevages ovins de la région d’Ajaccio). Pour évaluer le pouvoir discriminant des modèles, l’aire sous la courbe (AUC : area under curve) ROC (Receiver operating characteristic) a été calculée (logiciel Stata®). Cette approche repose sur les notions de sensibilité et de spécificité (tableau 19) : la sensibilité est la probabilité qu’une prédiction soit positive lorsque l’élevage est réellement infecté, la spécificité étant la probabilité qu’elle soit négative lorsque l’élevage est sain.

Tableau 19 : Sensibilité et spécificité.

Infecté Sain Total

Prédiction + VP (vrais positifs) FP (faux positifs) Valeur prédictive positive VPP = VP / (VP+FP) Prédiction - FN (faux négatifs) VN (vrais négatifs) Valeur prédictive négative

VPN = VN / (VN+FN) Sensibilité :

Se = VP / (VP+FN)

Spécificité : Sp = VN / (VN+FP)

En faisant varier le seuil à partir duquel on considère que le résultat du test est positif, on fait varier la sensibilité et la spécificité (figure 35). Cela peut servir à déterminer le seuil correspondant au meilleur compromis entre sensibilité et spécificité, ou, inversement, à connaître les valeurs de sensibilité et spécificité associées à un seuil déjà fixé.

Figure 35 : Variation de la sensibilité et spécificité en fonction du seuil du test. Source : figure reprise de http://www.anaesthetist.com/mnm/stats/roc/Findex.htm

Taux VP : taux de vrais positifs Taux FP : taux de faux positifs Taux FN : taux de faux négatifs Taux de VN : taux de vrais négatifs Seuil : valeur du test à partir de laquelle on considère que le résultat est positif.

La courbe ROC permet d’évaluer la sensibilité en fonction de (1 – spécificité) de chaque prédiction faite par le modèle (figure 36) en faisant varier le seuil retenu. Plus le modèle aura un pouvoir de discrimination élevé, plus l’aire sous la courbe ROC sera proche de 1. Inversement, un modèle ayant une aire sous la courbe ROC proche de 0,5 a un pouvoir de discrimination nul. La discrimination est peu satisfaisante lorsque l’aire sous la courbe ROC est comprise entre 0,6 et 0,7 ; satisfaisante entre 0,7 et 0,8 ; bonne entre 0,8 et 0,9 et excellente au-delà de 0,9. Les aires sous les courbes ROC des différents modèles ont été comparées à l’aide du logiciel Stata® selon la méthode statistique proposée par DeLong et al. (DeLong et al., 1988).

Figure 36 : Courbes ROC. Source : Park et al., 2004, Korean J. Radiol., 5 (1), 11-18.

Se

nsibilité

1 - spécificité

- Modèle A : discrimination parfaite (AUC ROC = 1)

- Modèle D : discrimination nulle (AUC ROC = 0,5)

- Modèles B et C : discrimination intermédiaire, avec le modèle B ayant un pouvoir de discrimination meilleur que le modèle C.

2.4.1. Validation interne

La validation interne (sur les 80 élevages) montre que la capacité de discrimination des modèles est bonne (0,8 ≤ AUC ROC < 0,9 pour 500 m et 2 km) ou excellente (0,9 ≤ AUC ROC pour 1 km) (tableau 20). Les différences de capacité de discrimination entre les trois modèles ne sont pas significatives.

Les valeurs de sensibilité et de spécificité ont été calculées pour un seuil de 0,5 : c’est-à- dire que les élevages dont la probabilité d’être infecté était prédite supérieure ou égale à 0,5 ont été considérés comme infectés, et ceux dont la probabilité était prédite inférieure à 0,5 ont été considérés comme indemnes. Le modèle établi pour un voisinage de 1 km présente le meilleur compromis entre sensibilité (Se) et spécificité (Sp) : Se = Sp = 85 %. Les sensibilités des deux autres modèles sont légèrement meilleures mais leurs spécificités sont peu satisfaisantes (62 et 68 %).

Tableau 20 : Validation interne des 3 modèles.

Taille de voisinage Validation interne (n = 80)

500 m 1 km 2 km

Aire sous la courbe ROC (Intervalle de confiance à 95 %) 0,85 (0,77-0,93) 0,90 (0,83-0,97) 0,88 (0,81-0,96) Sensibilité (seuil : 0,5) (%) 87 85 87 Spécificité (seuil : 0,5) (%) 62 85 68

Afin d’établir si le modèle à 1 km présentait les meilleurs résultats du fait de la pertinence des variables incluses ou de l’échelle de voisinage, les trois séries de variables ont été appliquées aux trois échelles de voisinage. Les résultats montrent que le modèle à 1 km combine à la fois les variables les plus pertinentes et l’échelle de voisinage la plus adaptée, même si ces différences ne sont pas statistiquement significatives (cf. analyse présentée dans

la section valorisations, (article 2).

La figure 37 présente la répartition des élevages correctement prédits (vrais positifs et vrais négatifs) et ceux pour lesquelles la prédiction est erronée (faux positifs52 et faux négatifs53) en prenant le modèle établi pour un voisinage de 1 km.

52 Faux positifs : prédits positifs alors que l’élevage est indemne. 53 Faux négatifs : prédits négatifs alors que l’élevage est infecté.

Figure 37 : Statut prédit et réel des élevages de l’extrême sud de la Corse.

Tous les élevages prédits positifs sont représentés en noir, ceux prédits négatifs en gris ; dans les deux cas, un rond signifie une bonne prédiction, une étoile une prédiction erronée.

2.4.2. Validation externe dans la région d’Ajaccio

2.4.2.1. Données épidémiologiques pour la zone d’Ajaccio

Pour valider les modèles en externe, les variables environnementales retenues dans les modèles ont été extraites au voisinage d’élevages ovins situés dans la région d’Ajaccio. Le statut officiel des élevages est présenté dans la figure 38.

Figure 38 : Répartition des élevages de la région d’Ajaccio.

Données SPOT/Programme ISIS, © CNES (2002), distribution Spot Image S.A.

Lorsque au moins 25 % de la zone tampon autour des élevages étaient situés en dehors de la zone d’étude d’Ajaccio, les élevages étaient éliminés. Ainsi le nombre d’élevages de la région d’Ajaccio retenus pour la validation externe varie selon la taille de la zone tampon : 151 élevages pour un voisinage de 500 m, 134 pour 1 km et 130 pour de 2 km.

2.4.2.2. Résultats de la validation externe dans la région d’Ajaccio

Les prédictions issues de l’application des modèles à ces données ont ensuite été comparées avec le statut officiel des élevages (tableau 21).

Tableau 21 : Validation externe des 3 modèles dans la région d’Ajaccio.

Taille de voisinage Validation externe

(région d’Ajaccio) 500 m 1 km 2 km

Nombre d’élevages 151 134 130

Aire sous la courbe ROC (Intervalle de confiance à 95 %) 0,73 (0,65-0,81) 0,81 (0,74-0,88) 0,77 (0,69-0,85) Sensibilité (seuil : 0,5) (%) 0 47 3 Spécificité (seuil : 0,5) (%) 100 92 100

La capacité de discrimination (AUC ROC) est satisfaisante pour les modèles établis avec des voisinages de 500 m et de 2 km, et bonne pour celui établi avec un voisinage de 1 km. Comme précédemment, ces différences ne sont pas significatives.

En termes de sensibilité et spécificité, calculées avec un seuil de 0,5, aucun des modèles n’est acceptable.

Ces deux résultats montrent un pouvoir discriminant (AUC ROC) satisfaisant mais une incapacité à prédire le statut des élevages de façon absolue : la probabilité de risque prédite ne permet pas de discriminer les élevages infectés et indemnes en se basant sur un seuil de 0,5. En effet, avec ce seuil, aucun élevage n’est prédit infecté pour le modèle à 500 m, et 2 élevages seulement le sont pour celui à 2 km. La variable latitude, associée au risque dans ces deux modèles (contrairement au modèle à 1 km), pourrait expliquer ces mauvaises prédictions. En effet, la latitude présente des valeurs plus faibles pour la zone d’Ajaccio puisque cette dernière est située au nord de la principale zone d’étude. Cette hypothèse est testée dans la partie 2.5.2.

Comme ces modèles ont un pouvoir discriminant satisfaisant, on peut les appliquer dans de nouvelles zones à des fins de prédictions, non pas quantitatives, mais qualitatives : ils peuvent en effet servir à identifier les « x % » d’élevages les plus à risque dans une zone donnée.

Si un seuil de 0,5 ne permet pas de prédire le statut des élevages dans une nouvelle zone, on peut déterminer, grâce aux analyses ROC, le seuil optimal (correspondant au meilleur compromis entre sensibilité et spécificité) dans une zone comme Ajaccio, où l’on connaît le statut de certains élevages. Dans cette zone, le risque pourra alors être apprécié de façon quantitative en de nouveaux points de la région (par exemple pour un élevage nouvellement

installé). Dans une nouvelle zone géographique (où le statut des élevages n’est pas connu), cela ne peut pas être appliqué car le seuil optimal pour la zone ne peut pas être déterminé.

Le seuil optimal se définit en fonction des situations épidémiologiques. S’il est plus important de ne pas « passer à côté » d’élevages à risque (réduire le nombre de faux négatifs), il faut choisir un seuil permettant d’obtenir une sensibilité élevée. Au contraire, s’il est plus important de limiter les coûts de la surveillance en réduisant le nombre de faux positifs, le seuil choisi devra favoriser la spécificité. Un autre critère pour choisir le seuil peut être le nombre d’individus bien classés (sans prendre en compte les valeurs de sensibilité et de spécificité). Enfin il est aussi possible de combiner différents critères (par exemple : la meilleure sensibilité possible sans que la spécificité soit inférieure à x). À titre illustratif, un seuil optimal pour chaque modèle a été choisi pour la région d’Ajaccio en imposant au moins 70 % d’individus bien classés et en favorisant la sensibilité. Les résultats (seuils, sensibilités et spécificités associées) sont présentés dans le tableau 22. Le modèle établi pour un voisinage de 1 km présente la meilleure sensibilité (87 %) lorsque ces critères de choix du seuil sont appliqués.

Tableau 22 : Seuil optimal issu de l’analyse ROC pour la région d’Ajaccio.

Taille de voisinage Validation externe

(région d’Ajaccio) 500 m 1 km 2 km

Nombre d’élevages 151 134 130

Seuil 0,0018 0,045 0,00031

Pourcentage d’individus bien classés 70 70 70

Sensibilité (%) 51 87 79

Spécificité (%) 92 52 60

En utilisant un seuil de 0,045, la répartition des élevages d’Ajaccio correctement prédits (vrais positifs et vrais négatifs) par le modèle développé pour un voisinage de 1 km et ceux pour lesquelles la prédiction est erronée (faux positifs et faux négatifs) sont présentés dans la figure 39.

Figure 39 : Statut prédit et réel des élevages de la région d’Ajaccio.

Les élevages prédits positifs sont représentés en noir, ceux prédits négatifs en gris ; dans les deux cas, un rond signifie une bonne prédiction, une étoile une prédiction erronée.