• Aucun résultat trouvé

Transformation des variables continues dans le cadre d’un modèle logistique 46

Avant de construire un modèle par régression logistique, il est important de savoir comment

prendre en compte les variables explicatives. Les variables qualitatives nominales à k

modalités sont généralement codées par (k−1) variables indicatrices, après avoir fixé au

préalable une modalité de référence. Les variables qualitatives ordinales, comme la classe

NYHA par exemple, peuvent être codées par l’intermédiaire de variables indicatrices

emboîtées, pour conserver le caractère ordinal de la variable. Une attention plus particulière

doit cependant être accordée aux variables quantitatives.

Lorsqu’on utilise une variable continue X dans un modèle logistique uni-variable, celui-ci

s’écrit :

logit[P(Ω1|X =x)] = β0+β0x.

Ainsi, on suppose implicitement que le logit de P(Ω1|X) dépend linéairement de X. Cette

hypothèse de linéarité doit donc être vérifiée graphiquement et/ou confirmée par un test

statistique. Pour remédier au problème de non-linéarité, la stratégie privilégiée est la

transformation de la variable.

Nous présentons dans la suite des méthodes permettant de tester la linéarité et de

transformer les variables.

4.2.1 Détection graphique de la non-linéarité

Une procédure graphique simple permet de vérifier la linéarité du logit par rapport à une

variable X [30]. Le principe est le suivant :

• on discrétise la variable X en déciles ;

• dans chaque intervalle, on calcule la proportion d’individus de la classe Ω1, notée π;

• on représente sur un graphique :

en abscisse, la moyenne des valeurs de X dans chaque intervalle ;

en ordonnée, le logit observé ln

π

1−π

.

Si la relation est linéaire, les points devraient être sensiblement alignés. L’avantage de cette

méthode est qu’elle nous renseigne non seulement sur le caractère linéaire ou non du logit par

rapport à X, mais aussi sur la forme de la relation en cas de non-linéarité.

4.2.2 Tests de linéarité

Polynômes

Pour tester la linéarité d’une variable continue, une approche classique consiste à utiliser un

polynôme de degré supérieur à 1, en général de degré 2 ou 3 [63]. On va examiner le modèle

logistique contenant à la fois le terme linéaire et les termes de puissance supérieure à 1. Cette

méthode a l’avantage de la simplicité et de permettre un simple test d’écart à la linéarité en

testant l’hypothèse de nullité simultanée de tous les coefficients associés aux termes de

puissance supérieure à 1, par la méthode du rapport de vraisemblance par exemple.

Test du rapport de vraisemblance

Soit θ =

θ1

θ2

, dim θ2 =r, dim θ1 =p+ 1−r.

On considère le test :

H0 :θ2 = 0

H1 :θ2 6= 0 au seuilα.

Si H0 est vraie, ceci traduit le fait que les r variables ne sont pas discriminantes dans leur

ensemble.

Soit ˆθ =

ˆ

θ1

ˆ

θ2

 l’estimation de θ au sens du maximum de vraisemblance.

On suppose que θ2 = 0 et on note ˆθ10 l’estimation au sens du maximum de vraisemblance sous

l’hypothèse H0.

On considère le rapport de vraisemblance :

λ(0) = supθ

1

L(θ1,0)

supθ

1

2

L(θ1, θ2) =

Lθ10,0)

Lθ1,θˆ2)

Sous H0, −2 ln (λ(0)) = 2ln(Lθ1,θˆ2))−ln(Lθ10,0)) est distribué suivant la loi duχ2 à r

degrés de liberté, dont on note ar(α) le quantile d’ordre 1−α.

Règle de décision :

Si −2 ln (λ(0))> ar(α), on rejette H0; sinon on ne rejette pas H0.

Si on ne rejette pas H0, on considère que lesr variables ne sont pas discriminantes en

présence des autres.

Splines cubiques restreints

Pour tester la linéarité, une autre possibilité consiste à modéliser le lien entre X et le logit à

l’aide de fonctions splines.

appartenant à l’ensemble des valeurs de X), est définie par :

f(x) = α00+

d

X

i=1

α0ixi+

k

X

j=1

αj(max (0, xsj))d

Dans le domaine médical, les fonctions splines les plus utilisées en pratique sont les fonctions

splines cubiques restreintes [60]. Ce sont des fonctions splines cubiques (d= 3), auxquelles on

ajoute la contrainte d’être linéaires pour x < s1 etx > sk.

Si x < s1, la contrainte de linéarité implique que α02 =α03 = 0.

Si x > sk, la contrainte de linéarité implique que f00(x) et f000(x) sont nulles.

Sous ces deux contraintes, on peut montrer que la fonction spline cubique restreinte peut se

réécrire comme suit [59] :

f(x) = γ0+γ1x+

k−1

X

j=2

γjνj(x)

avec γ0 =α00, γ1 =α01 et pour j = 2, ..., k−1

γj = αj

νj(x) = (max (0, xsj))3sksj

sks1 (max (0, xs1))3

sj s1

sks1

(max (0, xsk))3

Pour définir une fonction spline cubique restreinte, un minimum de k = 3 nœuds est

nécessaire. Cette fonction est composée d’un terme linéaire et de (k−2) termes cubiques. On

peut donc effectuer un test d’écart à la linéarité en testant l’hypothèse de nullité simultanée

de tous les coefficients associés aux termes cubiques, en utilisant le test du rapport de

vraisemblance.

4.2.3 Transformation d’une variable continue

Discrétisation

Dans le domaine médical, les variables continues sont souvent discrétisées en catégories en

utilisant des valeurs seuils cliniques ou définies par des quantiles (médiane, tertiles, quartiles).

L’avantage de cette méthode réside essentiellement dans la présentation et l’interprétation des

résultats qui est rendue plus simple. Par contre, ce type de transformation présente beaucoup

d’inconvénients [58]. La même valeur va être attribuée à toutes les observations d’une même

classe. En conséquence, cela induit une perte de puissance pour le test de l’association entre la

variable X et la variable cible Y. On a donc tout intérêt à trouver une fonction de

transformation adéquate afin de conserver le caractère continu de la variable.

Fonction de transformation

Dans la pratique, la relation entre une variable quantitative et le logit est très souvent soit

monotone, soit quadratique. Par conséquent, on peut avoir intérêt à appliquer une fonction de

transformation monotone ou quadratique à la variable qui soit susceptible d’avoir une relation

linéaire avec le logit.

Si une variable ne vérifie pas la linéarité mais que lien paraît être monotone, nous pouvons

considérer les transformations mathématiques usuelles du type f(x) = ln(x) ou f(x) =xd

avec d∈ {−3,−2,−1,−0.5,0.5,1,2,3}. Puis on applique à la variable x la fonction de

transformation f(x) qui rend maximale la vraisemblance.

Pour une variable ne vérifiant pas la linéarité mais dont le lien paraît être plutôt quadratique,

nous pouvons alors utiliser une fonction de transformation de la variable x du type (xs)2, s

étant une valeur optimale à déterminer selon un certain critère. Une solution possible pour

déterminer cette valeur consiste à utiliser le critère du maximum de vraisemblance. Le

principe en est le suivant :

Soit S ={s1, . . . , sm} l’ensemble des m valeurs possibles distinctes prises par la variable x.

• poursj ∈ S, on construit un modèle de régression logistique uni-variable en utilisant la

variable transformée (xsj)2 et on note la vraisemblance du modèle ;

• on retient la fonction qui donne la vraisemblance maximale et on notes la valeur

associée à la transformation optimale ;

• on applique à la variable x la fonction de transformation f(x) = (xs)2.

5 Sélection de variables explicatives

Avant de procéder à une analyse discriminante, il est important d’éliminer les variables non

discriminantes, c’est-à-dire celles qui n’apportent pas d’information significative sur

l’appartenance à une classe.

Un autre argument en faveur de la réduction du nombre de variables concerne le problème de

la multicolinéarité, qui survient lorsque certaines variables sont fortement corrélées entre elles.

Un dernier argument en faveur de la réduction du nombre de variables explicatives fait

référence au principe de parcimonie. Lorsqu’il y a trop de variables explicatives dans un

modèle, on peut être confronté au problème de sur-apprentissage, c’est-à-dire que le modèle

s’adapte très bien aux données mais sera mauvais si on l’applique à des individus ne faisant

pas partie de l’échantillon d’apprentissage.