• Aucun résultat trouvé

S´election de variables en r´egression logistique

N/A
N/A
Protected

Academic year: 2022

Partager "S´election de variables en r´egression logistique"

Copied!
1
0
0

Texte intégral

(1)

S´ election de variables en r´ egression logistique

• Plusieurs proc´edures empiriques sont propos´ees dans la litt´erature pour construire un mod`ele de r´egression logistique au d´epart d’une s´erie de variables explicatives.

• Celle pr´esent´ee dans les exemples du cours partent du mod`ele satur´e et cherche `a le simplifier en tentant de retirer certains termes du mod`ele en respectant la hi´erarchie (: pas de retrait d’un effet principal lorsque la variable concern´ee apparait toujours en interaction avec une autre).

• La m´ethode pr´esent´ee ici permet de faire face aux situations impliquant un grand nombre de variables explicatives X1, . . . , Xp.

• Dans ce cas, il n’est pas r´ealiste de partir du mod`ele satur´e avec les interactions de tous les ordres. ”Au pire”, on pourrait imaginer d´emarrer avec une mod`ele pr´esentant tous les effets principaux ainsi que toutes les interactions d’ordre 2,

(X1+. . .+Xp) +

(X1∗X2+. . .+X1∗Xp) + (X2∗X3+. . .+X2∗Xp) +. . .+ (Xp−1∗Xp) pour ensuite tenter de le simplifier comme au d´epart d’un mod`ele satur´e.

• Alternativement, la proc´edure suivante, inspir´ee de Hosmer et al. (Section 4.2 dans Applied Logistic Regression, 3rd ed - Wiley 2013) pourrait ˆetre employ´ee.

1. Identifier isol´ement toutes les variables explicatives pr´esentant un P <0.25.

2. Ajuster le mod`ele multivari´e avec toutes les variables retenues en (1).

3. Tenter de simplifier, variable par variable, le mod`ele en (2) (avec crit`ere deP <0.05 pour conserver une variable). Garder malgr´e tout une variable si son retrait influence fortement les estimations li´ees aux variables toujours pr´esentes dans le mod`ele.

4. Tenter de r´eintroduire une par une chacune des variables ´ecart´ees `a l’´etape (1) au mod`ele issu de l’´etape (3).

5. Examiner dans quelle mesure certaines cat´egories d’une variable explicative retenue en fin d’´etape (4) peuvent ˆetre regroup´ees.

6. D´eterminer quelles interactions d’ordre 2 pourraient faire sens dans le contexte de l’application et identifier (comme en (1) avec les effets principaux) celles qui sont significatives lorsqu’on les ajoute au mod`ele en (5) (mais cette fois avec un P <0.05 comme crit`ere d’inclusion).

7. Ajouter toutes les interactions identifi´ees en (6) aux effets principaux retenus en (5) et chercher `a ´eliminer des interactions du mod`ele (comme lors de l’´etape (3) avec les effets principaux).

• Lorsque la r´eponse est ordinale, la mˆeme proc´edure peut ˆetre employ´ee avec le mod`ele `a cotes proportionnelles pour identifier les variables explicatives pertinentes (ainsi que leurs interac- tions).

1

Références

Documents relatifs

Y∼0+X1 r´ egression lin´ eaire simple sans intercept (identique au pr´ ec´ edent) Y∼X1-1 r´ egression lin´ eaire simple sans intercept (identique au pr´ ec´ edent)

La fonction residuals fournit diff´ erents types de r´ esidus ` a partir d’un mod` ele ajust´ e avec la fonction glm du package stats, charg´ e par d´ efaut. On peut effectuer

On suppose que l’on observe seulement le nombre de particules dans le r´ecipient A au cours du temps, et que l’on d´esire estimer le nombre total de particules. Et construire

A chaque alignement, est associ´ e un score (simple ici) suivant: pour chaque position on associe 0 si les 2 bases sont identiques, +1 si les deux bases sont diff´ erentes et +3 s’il

Cette sonde est constitu´ee d’un cˆ able coaxial analogue au pr´ec´edent et d’une tˆete de sonde comprenant une r´esistance R s de 9 MΩ en parall`ele avec un condensateur C

Regarder les hypoth` eses statistiques du mod` ele et analyser leurs cons´ equences (absence de biais, convergence, efficience).. Distinguer entre les cas d’erreurs h´ et´

I La multicollin´ earit´ e imparfaite n’est typiquement pas un signe d’une erreur logique dans le choix des variables explicatives du mod` ele, mais est due aux donn´ ees utilis´

On peut l’utiliser pour tester l’hypoth`ese nulle de l’absence de relation entre la variable explicative (les variables explicatives `a part la constante dans le mod`ele de