Avant de construire un modèle par régression logistique, il est important de savoir comment
prendre en compte les variables explicatives. Les variables qualitatives nominales à k
modalités sont généralement codées par (k−1) variables indicatrices, après avoir fixé au
préalable une modalité de référence. Les variables qualitatives ordinales, comme la classe
NYHA par exemple, peuvent être codées par l’intermédiaire de variables indicatrices
emboîtées, pour conserver le caractère ordinal de la variable. Une attention plus particulière
doit cependant être accordée aux variables quantitatives.
Lorsqu’on utilise une variable continue X dans un modèle logistique uni-variable, celui-ci
s’écrit :
logit[P(Ω1|X =x)] = β0+β0x.
Ainsi, on suppose implicitement que le logit de P(Ω1|X) dépend linéairement de X. Cette
hypothèse de linéarité doit donc être vérifiée graphiquement et/ou confirmée par un test
statistique. Pour remédier au problème de non-linéarité, la stratégie privilégiée est la
transformation de la variable.
Nous présentons dans la suite des méthodes permettant de tester la linéarité et de
transformer les variables.
4.2.1 Détection graphique de la non-linéarité
Une procédure graphique simple permet de vérifier la linéarité du logit par rapport à une
variable X [30]. Le principe est le suivant :
• on discrétise la variable X en déciles ;
• dans chaque intervalle, on calcule la proportion d’individus de la classe Ω1, notée π;
• on représente sur un graphique :
en abscisse, la moyenne des valeurs de X dans chaque intervalle ;
en ordonnée, le logit observé ln
π
1−π
.
Si la relation est linéaire, les points devraient être sensiblement alignés. L’avantage de cette
méthode est qu’elle nous renseigne non seulement sur le caractère linéaire ou non du logit par
rapport à X, mais aussi sur la forme de la relation en cas de non-linéarité.
4.2.2 Tests de linéarité
Polynômes
Pour tester la linéarité d’une variable continue, une approche classique consiste à utiliser un
polynôme de degré supérieur à 1, en général de degré 2 ou 3 [63]. On va examiner le modèle
logistique contenant à la fois le terme linéaire et les termes de puissance supérieure à 1. Cette
méthode a l’avantage de la simplicité et de permettre un simple test d’écart à la linéarité en
testant l’hypothèse de nullité simultanée de tous les coefficients associés aux termes de
puissance supérieure à 1, par la méthode du rapport de vraisemblance par exemple.
Test du rapport de vraisemblance
Soit θ =
θ1
θ2
, dim θ2 =r, dim θ1 =p+ 1−r.
On considère le test :
H0 :θ2 = 0
H1 :θ2 6= 0 au seuilα.
Si H0 est vraie, ceci traduit le fait que les r variables ne sont pas discriminantes dans leur
ensemble.
Soit ˆθ =
ˆ
θ1
ˆ
θ2
l’estimation de θ au sens du maximum de vraisemblance.
On suppose que θ2 = 0 et on note ˆθ10 l’estimation au sens du maximum de vraisemblance sous
l’hypothèse H0.
On considère le rapport de vraisemblance :
λ(0) = supθ
1L(θ1,0)
supθ
1,θ
2L(θ1, θ2) =
L(ˆθ10,0)
L(ˆθ1,θˆ2)
Sous H0, −2 ln (λ(0)) = 2ln(L(ˆθ1,θˆ2))−ln(L(ˆθ10,0)) est distribué suivant la loi duχ2 à r
degrés de liberté, dont on note ar(α) le quantile d’ordre 1−α.
Règle de décision :
Si −2 ln (λ(0))> ar(α), on rejette H0; sinon on ne rejette pas H0.
Si on ne rejette pas H0, on considère que lesr variables ne sont pas discriminantes en
présence des autres.
Splines cubiques restreints
Pour tester la linéarité, une autre possibilité consiste à modéliser le lien entre X et le logit à
l’aide de fonctions splines.
appartenant à l’ensemble des valeurs de X), est définie par :
f(x) = α00+
d
X
i=1
α0ixi+
k
X
j=1
αj(max (0, x−sj))d
Dans le domaine médical, les fonctions splines les plus utilisées en pratique sont les fonctions
splines cubiques restreintes [60]. Ce sont des fonctions splines cubiques (d= 3), auxquelles on
ajoute la contrainte d’être linéaires pour x < s1 etx > sk.
Si x < s1, la contrainte de linéarité implique que α02 =α03 = 0.
Si x > sk, la contrainte de linéarité implique que f00(x) et f000(x) sont nulles.
Sous ces deux contraintes, on peut montrer que la fonction spline cubique restreinte peut se
réécrire comme suit [59] :
f(x) = γ0+γ1x+
k−1
X
j=2
γjνj(x)
avec γ0 =α00, γ1 =α01 et pour j = 2, ..., k−1
γj = αj
νj(x) = (max (0, x−sj))3− sk−sj
sk−s1 (max (0, x−s1))3
−sj −s1
sk−s1
(max (0, x−sk))3
Pour définir une fonction spline cubique restreinte, un minimum de k = 3 nœuds est
nécessaire. Cette fonction est composée d’un terme linéaire et de (k−2) termes cubiques. On
peut donc effectuer un test d’écart à la linéarité en testant l’hypothèse de nullité simultanée
de tous les coefficients associés aux termes cubiques, en utilisant le test du rapport de
vraisemblance.
4.2.3 Transformation d’une variable continue
Discrétisation
Dans le domaine médical, les variables continues sont souvent discrétisées en catégories en
utilisant des valeurs seuils cliniques ou définies par des quantiles (médiane, tertiles, quartiles).
L’avantage de cette méthode réside essentiellement dans la présentation et l’interprétation des
résultats qui est rendue plus simple. Par contre, ce type de transformation présente beaucoup
d’inconvénients [58]. La même valeur va être attribuée à toutes les observations d’une même
classe. En conséquence, cela induit une perte de puissance pour le test de l’association entre la
variable X et la variable cible Y. On a donc tout intérêt à trouver une fonction de
transformation adéquate afin de conserver le caractère continu de la variable.
Fonction de transformation
Dans la pratique, la relation entre une variable quantitative et le logit est très souvent soit
monotone, soit quadratique. Par conséquent, on peut avoir intérêt à appliquer une fonction de
transformation monotone ou quadratique à la variable qui soit susceptible d’avoir une relation
linéaire avec le logit.
Si une variable ne vérifie pas la linéarité mais que lien paraît être monotone, nous pouvons
considérer les transformations mathématiques usuelles du type f(x) = ln(x) ou f(x) =xd
avec d∈ {−3,−2,−1,−0.5,0.5,1,2,3}. Puis on applique à la variable x la fonction de
transformation f(x) qui rend maximale la vraisemblance.
Pour une variable ne vérifiant pas la linéarité mais dont le lien paraît être plutôt quadratique,
nous pouvons alors utiliser une fonction de transformation de la variable x du type (x−s)2, s
étant une valeur optimale à déterminer selon un certain critère. Une solution possible pour
déterminer cette valeur consiste à utiliser le critère du maximum de vraisemblance. Le
principe en est le suivant :
Soit S ={s1, . . . , sm} l’ensemble des m valeurs possibles distinctes prises par la variable x.
• poursj ∈ S, on construit un modèle de régression logistique uni-variable en utilisant la
variable transformée (x−sj)2 et on note la vraisemblance du modèle ;
• on retient la fonction qui donne la vraisemblance maximale et on notes∗ la valeur
associée à la transformation optimale ;
• on applique à la variable x la fonction de transformation f(x) = (x−s∗)2.
5 Sélection de variables explicatives
Avant de procéder à une analyse discriminante, il est important d’éliminer les variables non
discriminantes, c’est-à-dire celles qui n’apportent pas d’information significative sur
l’appartenance à une classe.
Un autre argument en faveur de la réduction du nombre de variables concerne le problème de
la multicolinéarité, qui survient lorsque certaines variables sont fortement corrélées entre elles.
Un dernier argument en faveur de la réduction du nombre de variables explicatives fait
référence au principe de parcimonie. Lorsqu’il y a trop de variables explicatives dans un
modèle, on peut être confronté au problème de sur-apprentissage, c’est-à-dire que le modèle
s’adapte très bien aux données mais sera mauvais si on l’applique à des individus ne faisant
pas partie de l’échantillon d’apprentissage.
Dans le document
Aide à la décision médicale et télémédecine dans le suivi de l’insuffisance cardiaque
(Page 52-55)