• Aucun résultat trouvé

2.4 Analyse pr´ edictive

2.4.2 Diagnostic de la co-infection

echantillons.

2.4.2 Diagnostic de la co-infection

En se basant sur les r´esultats pr´ec´edents, nous proposons une m´ethodologie de diag-nostic qui pourra aider le m´edecin `a mieux diagnostiquer les infections arbovirus sachant que le patient a le paludisme.

Le test d’ind´ependance d´ecrit `a la section 2.4.1 montre une association entre paludisme et infections aux arbovirus. Alors nous pouvons ´evaluer la probabilit´e d’ˆetre co-infect´e sachant que le paludisme est observ´e. Cette probabilit´e peut ˆetre calcul´ee en fonction des probabilit´es πk estim´ees `a partir de la r´egression logistique multinomiale. Pour chaque individu i, \ P(C/P )i = πb3(i) b π3(i) +πb2(i) = eXiβc3 eXicβ3 + eXicβ2 .

La probabilit´e conditionnelle de co-infection peut ˆetre utilis´ee pour diff´erencier laquelle des maladies doit-on traiter. Nous proposons une classification binaire et nous pr´edisons un cas de co-infection si la probabilit´e conditionnelle de co-infection d´epasse un certain seuil γ :

 Si P(C|M) ≥ γ : Cas positif aux arbovirus, Si P(C|M ) < γ : Cas n´egatif aux arbovirus.

L’´evaluation de la classification est bas´ee sur la matrice de confusion et la pr´ecision globale de la classification. La matrice de confusion est utilis´ee pour calculer les vrais positifs aux arbovirus (TP), les faux positifs aux arbovirus (FP), les vrais n´egatifs aux

globale est donn´ee par le taux de mal class´es (MCR) d´efini par :

MCR = F P + F N

N ,

avec N = T P + F P + T N + F N.

L’analyse binaire pr´esent´ee dans cette partie est bas´ee sur 1148 individus du jeu

de donn´ees IgM/IgG–arbovirus qui correspondent aux patients infect´es aux parasites

du paludisme (c’est-`a-dire co-infection et paludisme). L’apprentissage de la r´egression

logistique multinomiale est fait sur 70% du jeu de donn´ees IgM/IgG–arbovirus, soit

1317 individus, et le test est fait sur un ´echantillon de 377 individus positifs au paludisme. Pour choisir le seuil de classification γ, une pratique standard est de minimiser le taux

de mal class´es (MCR). Nous calculons l’estimateur du MCR par validation crois´ee sur

5–´echantillons. Nous pouvons voir sur la figure 2.15 que le seuil optimal est autour de γ = 0.5.

Figure 2.15 – IgM/IgG − data : Taux de mal-calss´es estim´e par validation crois´ee. La ligne pleine noire repr´esente le WMCR. Le MCR est donn´e par la ligne noire pointill´ee. Une augmentation de γ augmente le nombre de FN (ligne verte) et diminue le nombre de FP (ligne rouge).

La validation crois´ee a ´et´e effectu´ee plusieurs fois avec des 5–´echantillons diff´erents et la valeur optimale du seuil reste stable. Alors une classification avec γ = 0.5 a ´et´e utilis´ee pour pr´edire le type de maladie d’un patient en se basant sur ses symptˆomes cliniques. Les pr´edictions et les actuels cas d’arbovirus ont ´et´e compar´es en utilisant l’´echantillon test (sur 377 individus), comme pr´esent´e au tableau 2.13.

Les lignes de la matrice sont les classes actuelles et les colonnes correspondent au

pr´edictions. On observe que le MCR est de 38%, et que le nombre de faux n´egatifs

(FN) est tr`es grand. Dans le cas de diagnostic de maladie, il est pr´ef´erable d’avoir une classification qui r´eduit le nombre de FN, parce que les FN peuvent ˆetre plus dangereux si on en rate beaucoup lors du traitement. Diff´erentes strat´egies peuvent ˆetre adopt´ees. Une possibilit´e est de r´eduire le nombre de FN en minimisant une version pond´er´ee du MCR :

WMCR = F P + 2F N

True

Predicted

0 1

0 211 29

1 114 23

Table 2.13 – Table de confusion avec γ = 0.5.

True

Predicted

0 1

0 88 152

1 24 113

Table 2.14 – Table de confusion avec γ = 0.25.

La valeur du seuil qui minimise le WMCR est de 0.25. Avec ce choix de γ, on observe sur le tableau 2.14 que le nombre de FN est r´eduit mais le taux de mal class´es a augment´e. Dans une autre ´etape, nous proposons de s´electionner, sur les patients pr´edits positifs, ceux qui ont un age sup´erieur `a 10 et un nombre de jours de maladie sup´erieur `a 3. En effet, nous avons conclu (pour le jeu de donn´ees IgM/IgG − data) `a la section 2.3.4 que ces deux variables sont plus indicatives aux arbovirus. Le tableau 2.15 donne le r´esultat correspondant : le MCR d´ecroˆıt jusqu’`a 36% et que le nombre de FN reste plus petit que le nombre de FN sur le tableau 2.13. De mˆeme le nombre de TP est doubl´e.

True

Predicted

0 1

0 190 50

1 85 52

Table 2.15 – Table de confusion avec γ = 0.25, Age = 10 and Number of sick days = 3. L’objectif de ces pr´edictions ´etait d’affecter un patient au groupe des “paludisme” ou au groupe des “arbovirus”, et `a traiter des cas de co-infection en fonction de la similitude des symptˆomes avec ceux de ces deux maladies. La proc´edure de classification est bas´ee sur le calcul de la probabilit´e conditionnelle P(C|M). Le param`etre de seuil est calibr´e sur les donn´ees en minimisant le taux de mal class´es pond´er´e (WMCR). Pour plus de pr´ecision dans la classification, nous proposons d’utiliser les deux variables consid´er´ees comme indicatives `a l’arbovirus.

La performance de la proc´edure de classification est fortement affect´ee par la qualit´e des donn´ees. Notre analyse est bas´ee sur deux jeux de donn´ees. Nous nous basons sur le jeu de donn´ees IgM/IgG − data construit `a partir des patients positifs `a l’IgM ou `

a l’IgG pour fournir une analyse pr´edictive. Malheureusement, ˆetre positif `a l’IgG ne veut pas forc´ement dire qu’on a eu une infection r´ecente aux arbovirus, parce que les anticorps auront ´et´e peut-ˆetre d´evelopp´es depuis longtemps. Ce qui minimise la possibilit´e de trouver une vraie corr´elation avec les symptˆomes enregistr´es initialement. Ces limites r´eduisent la capacit´e de pr´ediction dans la proc´edure de classification. Les faux positifs

et faux n´egatifs dˆus aux tests biologiques peuvent impacter les r´esultats. Cependant, les tests de diagnostic utilis´es dans cette ´etude pr´esentent de forts param`etres de sensibilit´e et de sensitivit´e. Leurs impacts peuvent ˆetre consid´er´es n´egligeables.