• Aucun résultat trouvé

Notre objectif est de pr´edire `a l’aide des 36 variables mesur´ees la modalit´e de chacune des trois variables suivantes : le score du TPO, le score du premier accident, l’intervalle de la dose r´eactog`ene. La dose r´eactog`ene ´etant au d´epart un caract`ere quantitatif dont les valeurs administr´ees sont fix´ees par paliers, un pr´etraitement - d´etaill´e plus loin - est propos´e afin de regrouper les intervalles de valeurs en classes et de s´electionner des variables discriminantes.

9.2.1 Les scores du TPO et du premier accident

Les scores du TPO et du premier accident sont r´epartis soit en quatre classes de s´ev´erit´e 1,2,3, {4, 5} (`a cause du faible effectif de la classe 5), soit en deux classes {1, 2, 3} et {4, 5}. Notre approche statistique est identique pour les scores du TPO et du premier accident et se d´ecompose, dans le cas de quatre classes ou de deux, en deux phases :

1. s´election de caract`eres discriminants parmi les 36 mesur´es, grˆace au test de Kruskal-Wallis [24] et `a la s´election pas-`a-pas progressive par le crit`ere du lambda de Wilks [48],

2. mise en comp´etition de plusieurs m´ethodes de classement test´ees par validation crois´ee : LDA, QDA, k-NN, CART, AdaBoost [49, 50] (dans le cas de deux classes uniquement). Remarque : Le principe de chacune de ces m´ethodes a ´et´e rappel´e dans le Chapitre 7. Pour les scores du TPO et du premier accident, le nombre de prick tests discriminants peut ˆ

etre beaucoup plus grand que le nombre de dosages retenus. Dans ce cas, la contribution des dosages au mod`ele risque d’ˆetre supplant´ee par celle des prick tests. Or les cliniciens souhaitent que les dosages gardent une contribution importante au mod`ele car :

1. les dosages sont des mesures plus pr´ecises et plus simples `a r´ealiser que les prick tests,

2. nous avons montr´e que les dosages immunologiques dont nous disposons permettent un

bon diagnostic de l’allergie `a l’arachide (Chapitre 8) ; il est donc raisonnable de penser qu’ils puissent ´egalement jouer un rˆole dans la pr´ediction de la s´ev´erit´e.

Pour rem´edier `a ceci, nous proposons de travailler sur un nombre r´eduit de facteurs, d´etermin´es `

a partir des variables discriminantes du score du premier accident ou du TPO par une Ana-lyse Factorielle Multiple (AFM) [51] ; cette m´ethode d’analyse des donn´ees permet d’´equilibrer l’influence de groupes de variables dans la d´etermination des facteurs.

Deux ´etudes sont r´ealis´ees : l’une en utilisant les variables, l’autre en utilisant les facteurs. La d´emarche statistique suivie peut ˆetre r´esum´ee par le sch´ema de la Figure 9.1.

CHAPITRE 9. PR ´EDICTION DE LA S ´EV ´ERIT ´E DE L’ALLERGIE `A L’ARACHIDE : R ´ESUM ´E

Sélection des variables discriminantes par :

le test de Kruskal-Wallis ou

sélection pas-à-pas progressive par le lambda de Wilks

Sélection des facteurs discriminants par :

le test de Kruskal-Wallis ou

sélection pas-à-pas progressive par le lambda de Wilks Analyse Factorielle Multiple des variables discriminantes

Même poids aux deux groupes de variables

Mise en compétition de méthodes de classement par validations croisées (4 parties

égales) : _ LDA

_ QDA _ k NN _ CART

_ AdaBoost (cas à deux classes uniquement)

Même poids à chacune des variables

Même poids à chacun des facteurs

Fig. 9.1 – Approche statistique pour la pr´edictions des scores du TPO et du premier accident

9.2.2 La dose r´eactog`ene

La dose r´eactog`ene est un caract`ere quantitatif dont les valeurs administr´ees sont fix´ees par paliers. On souhaite regrouper les intervalles de la dose r´eactog`ene en un nombre r´eduit d’in-tervalles, tout en s´electionnant les variables qui discriminent au mieux ces classes. Pour cela, nous proposons un algorithme qui proc`ede par optimisation altern´ee. Le crit`ere d’optimalit´e choisi est le Λ de Wilks.

L’algorithme proc`ede ainsi : – Pas 1 :

1. on cherche la partition en classes C1 des intervalles de la dose r´eactog`ene qui minimise Λ, calcul´e avec tous les pr´edicteurs (i.e. variables ou facteurs) disponibles ;

2. on choisit le pr´edicteur v1qui minimise Λ correspondant `a la partition C1pr´ec´edemment trouv´ee ;

– Pas 2 :

1. on cherche la partition en classes C2 des intervalles de la dose r´eactog`ene qui minimise Λ, calcul´e avec le pr´edicteur v1 pr´ec´edemment trouv´e ;

2. on choisit le pr´edicteur v2 tel que le couple de pr´edicteurs (v1, v2) minimise Λ calcul´e avec la partition C2;

CHAPITRE 9. PR ´EDICTION DE LA S ´EV ´ERIT ´E DE L’ALLERGIE `A L’ARACHIDE : R ´ESUM ´E

– la proc´edure s’arrˆete si aucun des pr´edicteurs restants ne peut am´eliorer le pouvoir dis-criminant du mod`ele, i.e., si la p−value de la statistique F d’entr´ee est plus grande que 0.15 [48], ou si tous les pr´edicteurs ont d´eja ´et´e s´electionn´es.

Des exemples d’utilisation de cet algorithme sont donn´es dans le Chapitre 11.

La taille relativement faible de l’´echantillon (n = 93) ne permet pas de r´epartir les individus en un grand nombre de classes. De plus, si le nombre de classes est ´elev´e, le nombre de partitions `

a ´etudier `a chaque pas peut ˆetre grand ; en outre, la qualit´e de la discrimination peut ˆetre mauvaise. L’algorithme a ´et´e utilis´e en fixant le nombre de classes `a 4 puis `a 2, par analogie avec les scores du TPO et du premier accident. L’algorithme a ´et´e appliqu´e sur les 36 variables puis sur les 36 facteurs de l’AFM correspondants, calcul´es `a partir de toutes les variables disponibles. En effet, il n’existe pas un ensemble “canonique” de caract`eres discriminants `a

partir duquel r´ealiser l’AFM, comme pour les scores du TPO et du premier accident, car le

choix des variables discriminantes est li´e au choix de la partition et inversement.

Une fois les variables et la partition d´etermin´ees, on proc`ede `a la comparaison des mˆemes m´ethodes de classement que pr´ec´edemment par validation crois´ee. Le sch´ema de l’´etude est repr´esent´e dans la Figure 9.2 :

Algorithme de classification des valeurs de DR

et de

sélection des variables discriminantes simultanées

Analyse Factorielle Multiple des 36 variables de départ Les 36 variables de départ

Mise en compétition de méthodes de classement par validations croisées (4 parties

égales) : _ LDA

_ QDA _ k NN _ CART

_ AdaBoost (cas à deux classes uniquement)

Même poids à chacun des prédicteurs (variables ou facteurs)

Fig. 9.2 – Approche statistique pour la pr´ediction de la dose r´eactog`ene

CHAPITRE 9. PR ´EDICTION DE LA S ´EV ´ERIT ´E DE L’ALLERGIE `A L’ARACHIDE : R ´ESUM ´E

9.3 R´esultats

Dans le tableau suivant est pr´esent´ee pour chacune des ´etudes r´ealis´ees la r`egle de classement offrant le meilleur pourcentage de bien class´es. Le pourcentage d’individus dont l’allergie est s´ev`ere qui sont bien class´es est ´egalement indiqu´e : il s’agit des individus ayant un score 4

ou 5 pour le TPO ou le premier accident, ou les patients appartenant `a la classe des doses

r´eactog`enes les plus faibles. En effet, un test efficace doit d´etecter un maximum de patients dont l’allergie est grave, afin d’´eviter `a ces derniers de suivre une conduite `a risque.

mesure de la s´ev´erit´e nb de classes variables facteurs premier accident 4 LDA : 50%-26% 3NN : 55%-23%

2 LDA : 83%-74% 3NN : 82%-64%

TPO 4 LDA : 46%-61% x

2 1NN : 72%-66% x

dose r´eactog`ene 4 LDA : 38%-38% LDA : 40%-73% 2 5NN : 66%-73% CART : 82%-85%

Tab. 9.1 – R´esum´e des r´esultats obtenus par les r`egles de classement

On constate tout d’abord que les r´esultats obtenus pour l’´etude en 4 classes sont m´ediocres en g´en´eral.

En deux classes, les variables retenues sont pour le 1er accident : les IgE dirig´ees contre rAra-h1,2,3 et poils de chien, noix, p´ecan, arachide, lupin. Utiliser ces variables avec la LDA conduit `

a 83% de bien class´es en deux classes.

Pour le TPO, le meilleur pourcentage de bien class´es (72%) est obtenu en deux classes avec

la m´ethode du 1 − N N , en utilisant les variables : lupin, lentille, blatte, 12 gramin´ees, frˆene. Notons que l’AFM n’a pas ´et´e r´ealis´ee dans le cas du TPO. La raison en est donn´ee dans le Chapitre 10.

Enfin, discriminer la dose r´eactog`ene avec les facteurs 13, 10, 32, 18, 24 calcul´es sur les 36 variables disponibles, conduit `a 82% de bien-class´es en deux classes (dose r´eactog`ene ≤ 500 mg et dose r´eactog`ene > 500 mg). Notons ´egalement que 85% des individus ayant une allergie s´ev`ere (c’est-`a-dire r´eagissant au plus `a 500 mg) sont bien class´es.