R EVUE DE STATISTIQUE APPLIQUÉE
C. C ANS
C. L AVERGNE
De la régression logistique vers un modèle additif généralisé : un exemple d’application
Revue de statistique appliquée, tome 43, n
o2 (1995), p. 77-90
<http://www.numdam.org/item?id=RSA_1995__43_2_77_0>
© Société française de statistique, 1995, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
DE LA RÉGRESSION LOGISTIQUE VERS
UN MODÈLE ADDITIF GÉNÉRALISÉ :
UN EXEMPLE D’APPLICATION
C. Cans
(1),
C.Lavergne (2)
(1) Laboratoire de
Génétique,
Faculté de Médecine de Grenoble 38706 La Tronche Cedex France(2)
IMAG - Laboratoire de Modélisation et Calcul BP 53, 38041 Grenoble Cedex 9 FranceRÉSUMÉ
Nous
présentons
unproblème
de modélisation enrégression logistique
sur unexemple
médical : comment
expliquer
la survenue d’un enfant malformé chez des parents «porteurs sains» d’une anomaliechromosomique
de structure, àpartir
de la connaissance de mesurescytogénétiques? Après
une modélisation de typerégression logistique «classique» qui
s’avèresatisfaisante aux yeux des
cytogénéticiens,
on est amené à chercher si des liens non linéaires seraientplus appropriés.
Latechnique
récente des modèles additifsgénéralisés peut-elle
s’avérer efficace dans cette
problématique?
Nous proposons ici une démarcheempirique
etexposons le
gain
obtenu sur la base de données étudiée.Mots-clés : Modèles linéaires et modèles
additifs généralisés, Régression logistique,
Conseilgénétique,
Translocationsréciproques.
SUMMARY
On a
large
data collectionof reciprocal
translocations,logistic regression
has been used to modelize the risk of viable unbalancedoffspring. Preliminary
resultsbeing interesting,
theuse of Generalized Additive Model is
proposed.
Animprovment
of theperformances
of thelogistic
model is obtainedby taking
into account the nonlinearity
between thepredictor
andthe
independent
covariates. Anempirical
strategy for its use is described, andapplied
to ourmedical data set.
Keywords :
Generalized Linear Model, Generalized Additive Model,Logistic regression,
Genetic
counseling, Reciprocal
translocations.1. Introduction
Basée sur les
techniques
delissage,
la théorie des modèles additifsgénéralisés
(GAM
pour Generalized AdditiveModel)
est introduite en 1986 parHastie,
T. etTibshirani,
R.([13])
dans le but depallier
àl’hypothèse
forte des modèles linéaires et modèles linéairesgénéralisés (GLM
pour Generalized LinearModel) :
le lien«linéaire» entre une variable à
expliquer
et desprédicteurs.
Dans unpremier temps,
on
présente
brièvement l’idéequi
aprévalu
à l’introduction du modèle additif avec soninterprétation géométrique.
On pourra se référer à[ 14]
pour une lecturemathématique
exhaustive ainsi que pour la très
large bibliographie.
Le mot«généralisés»
de laterminologie
«modèles additifsgénéralisés »
devant êtrepris
dans le même sens que dans laterminologie
«modèles linéairesgénéralisés».
Une
stratégie
d’utilisation est alorsprésentée
sur unexemple
médical dans lecas de la
régression logistique. L’objectif pousuivi
est de proposer une démarcheempirique
de la modélisation utilisant les modèles additifsgénéralisés.
Les données sont du
type présence/absence
d’anomalie. Dans unpremier temps,
on utilise la modélisation
type régression logistique
du modèle linéairegénéralisé;
adoptant
une démarcheapprofondie
mais«classique» :
une trèslarge
littérature existesur ce
sujet
etquelques
références sont citées auparagraphe
2.2. On se restreint à unobjectif
de modélisation : on ne discute pas du choix de la fonction delien,
fixée ici à la fonction de liencanonique (fonction logit);
on n’utilise pas nonplus
detechniques
de choix de modèles
([2]),
ni celles des modèlesgraphiques ([20]).
Après l’exposé
détaillé de la démarche de modélisationlogistique
en modèleslinéaires
généralisés;
etaprès
l’obtention d’un modèle issu d’unprédicteur linéaire,
on recherche une amélioration de ce modèle
grâce
à unprédicteur
additif mais non linéaire sur ces mêmes variables. Par la forme de la fonction nonparamétrique
du
prédicteur,
le modèle additifgénéralisé suggère
la transformation de certaines variablesexplicatives.
Cet
exemple d’application permet
de montrer l’amélioration del’ajustement
dela
régression logistique, après prise
encompte
de ces tranformations. Si legain
endéviance est
significatif,
laqualité
de ces deuxprédicteurs
additifspeut
êtrecomparée
sur des résultats
empiriques
de classification ou sur uneanalyse
des résidus : c’est cequi exposé
dans la dernièrepartie
surl’exemple d’application.
1.1 Le modèle
additif
Si l’on se restreint au modèle linéaire
standard,
étant donné une variableréponse
Y et prégresseurs X1, X2,..., Xp
observés sur nindividus,
on a l’écriture matricielle :X est la matrice n.p des
Xj.
Une
possibilité
pourpallier
àl’hypothèse
de linéarité est de proposer le modèle suivant :Le modèle additif est un cas
particulier
de celui-ci : tout en cherchant àsupprimer
l’hypothèse
delinéarité,
on conserve l’effet additif dechaque prédicteur.
On définitalors le modèle additif de la
façon
suivante :où les
fonctions fj
sont des fonctions inconnues. Si ce modèle estvrai,
alors pour toutk, E (Y - E fj(Xj)/Xk)
=fk(Xk).
Laprocédure
d’estimation de ces fonctionsfi
est doncproposée
parl’algorithme
suivant(appelé «backfitting algoritm») : i)
Initialisation :/"B pour j
=1
,pii) Pour j = 1,...,p,
lit)
Arrêt deii)
sichaque
fonctionf(q)j = f(q-1)j
La fonction
S(y/x) représente
unlissage
d’uneréponse y
parrapport
auprédicteur
x.A
chaque étape,
lafonction
est donc estimée par uneprocédure d’interpolation
non
paramétrique.
Lesprocédures
usuellement utilisées seront desprocédures splines
ou des
procédures
d’estimateurs à noyau.En
pratique
lesf
sont des vecteursde Rn t(f(q)j(x1j),..., f(q)j(xnj)),
xijétant la valeur
prise par la
variableXj
pour l’individuz.
1.2
Interprétation géométrique
On
appelle Hj l’espace
de Hilbert des fonctions mesurables de la variableXj,
centrées et de carré
intégrable,
muni duproduit
scalaireHj peut
être considéré comme un sous espace d’un espace de Hilbert H des fonctions mesurables deXl, ... , Xp,
centrées et de carrésintégrables.
Notons alorsHadd,
sous espace deH,
défini parHadd
=xl
+...+ Hp .
Leproblème d’ optimation
p
est la minimisation de
E(Y - g(X))2
avecg (X) L fj(Xj)
élément deHadd.
j=l
Sous
l’hypothèse
queHadd
est un sous espace fermé deH,
la solution à ceproblème
de
minimisation
existe et estunique (voir [3]).
En fait
chaque fonction f j (X j )
nepeut
être déterminée de faconunique.
PosonsPj
leprojecteur orthogonal
de U surHj;
la solutiong(X) peut
alors être caractériséepar Y -
g(X)~Hadd. Hadd
étantgénéré
par les espacesUj,
onpeut
écrire :Si les
projecteurs Pj
étaientidentifiables,
le«backfitting algoritm»
s’écrirait alors :On
peut
proposer alors l’écriture matricielle suivante :ou
où l’on
remplacera l’opérateur projecteur Pj (opérateur mathématique)
par une estimation obtenue par unopérateur
delissage Sj,
comme on le faitclassiquement (voir
parexemple [13])
en estimation fonctionnelle nonparamétrique.
2. Un
exemple
médical derégression logistique
2.1 La
question
des médecinsPour certaines maladies un
diagnostic prénatal
estenvisageable
permettant deprévoir
ou deprévenir
la survenue d’un enfant sévèrement malformé. C’est lecas des translocations
réciproques qui
constituent lagrande majorité
des anomalieschromosomiques
de structure. Pour aider lesgénéticiens
dans leur activité de conseilprénatal,
il est nécessaire depouvoir
fournir une estimation durisque
de survenued’un enfant malformé.
Disposant
à Grenoble d’un recensement trèsimportant
detranslocations
(voir [9]) (base
de données laplus
volumineuse aumonde),
nous avonsretenu 5564 individus issus d’un
parent porteur
sain d’une translocation.De
façon
àprédire,
pour chacund’eux,
lerisque
de survenue d’un enfantmalformé,
la modélisationlogistique
apermis
de sélectionner 10 variables sur untotal de 19 variables
explicatives (voir paragraphe suivant).
Parmi ces 10variables,
certaines étaientdisponibles
d’emblée dans notre base dedonnées,
c’est le cas des brasdes
points
de cassurechromosomiques (bras),
del’origine
maternelle oupaternelle
dela translocation
(origine)
et deslongueurs
dessegments chromosomiques (csbandeRl,
tsbandeRI, tsbandeR2).
D’autres variables ont dû être construites parregroupement
demodalités,
c’est le cas des chromosomesimpliqués (nvc),
du mode dedéséquilibre
le
plus probable (moseg),
et des variables décrivant la viabilitézygotique (via47, lamin, sinusadj).
Ladescription
détaillée de cette base de données et de l’ensemble des variablesdisponibles peut
être trouvée dans[10]
et[5].
2.2 La
régression logistique
Pour aborder ce
problème
deprédiction
nous avons été conduits à utiliser larégression logistique
comme outil de modélisation : la variable àexpliquer
est lavariable
dichotomique
«malade / non-malade ». Laprobabilité
d’être maladequi
estestimée par cette modélisation sera considérée comme étant le
risque
de survenued’un enfant
malformé,
pour unparent porteur
d’une translocation.Lors de la construction du modèle
logistique,
nous n’avons pas retenu de méthode pas à pas pour les raisons suivantes :- cette méthode
peut
conduire à sélectionner des variables nonpertinentes ([11]),
- il n’existe pas a
priori
desupériorité
du pas à pas parrapport
à un choix orienté et avisé des variables([12], [15]),
-
disposant
des résultatspréliminaires
del’analyse descriptive
des données concernant les variableschromosomiques
lesplus pertinentes,
etcompte
tenu de l’existence de certaines variables contraintes à rester dans lemodèle,
il nous a sembléplus opportun
de ne pasprocéder
à une sélection de variables « àl’aveugle».
Nous avons
respecté
leprincipe
deparcimonie;
ceci de manière à gagner enprécision
dans l’estimation desparamètres
et ensimplification
dansl’interprétation
du modèle. Le nombre
important
de variables(16 quantitatives
et 3qualitatives)
anécessité dans un
premier temps
uneanalyse
univariée pourpréciser
l’influence dechaque
variable. On utilise le test du score univarié pour les variablesquantitatives :
6 variables ont été
supprimées
soit en raison de leur absenced’influence,
soit en raison d’une forte corrélation avec une autre variablequi
sera conservée pourl’étape
suivante. En fin de modélisation les variables
supprimées pourront
êtrereinjectées
dans le modèle pour
vérifier,
à l’aide d’un test du scoremultivarié, qu’elles n’apportent
effectivement aucune amélioration
significative.
Le test de Wald est utilisé pour les variablesqualitatives :
cetteprocédure permet
de proposer desregroupements
de modalités. Dans notreexemple
2 variables à 3 modalités ont été ramenées à 2modalités;
la troisième est ramenée de 8 à 5 modalités. Les détails de cetteprocédure
sont
exposés
dans[6].
Dans un deuxièmetemps,
onprocède
à uneanalyse
multivariéeen
partant
du modèle leplus complet :
ici 10 variablesquantitatives,
3qualitatives;
avec des interactions allant
jusqu’à
l’ordre 3. Avec le même test citéprécédemment,
et selon une
stratégie
similaire à celleproposée
dans[12]
ou[18],
nous avons retenuparmi
les meilleurs modèles«possibles»,
un modèlecomportant
les variables lesplus influentes,
leplus petit
nombre deparamètres
et laplus petite
déviance.Les données étudiées sont des données observées
qui peuvent
être de mauvaisequalité.
Dans la mesure où ces donnéespeuvent
avoir une influence erronée surl’estimation des
paramètres,
il estimportant
de lesrepérer.
Les observations aberrantesou
atypiques
ont été détectées parl’analyse
des résidus.Plusieurs méthodes de calcul des résidus sont
disponibles :
résidus de ladéviance,
résidus dePearson,
résidus d’ Anscombe(dans [ 1 ],
lechapitre
VI avec entreautre deux
exemples d’analyse
des résidus enrégression logistique,
est entièrement consacré à cesnotions).
Bien que les résidus de la dévianceprésentent
une distributionplus symétrique
que les deux autres, nous avons constatéqu’il
était aussipertinent
detravailler sur les résidus de Pearson étant donné la
grande
taille de notre échantillon.Tout résidu standardisé
supérieur
à 2 a été considéré comme résidu d’une observation«suspecte» a priori.
Toute observation«suspecte»
a été vérifiée avec retour à la source de l’information(article
ou laboratoired’origine).
Des corrections ontparfois
été effectuéeslorqu’il s’agissait
d’erreurs de saisie oud’interprétation
desdonnées.
Pour les données vérifiées
qui
restaientaberrantes,
nous avons utilisé le test par délétion : y a-t-ilchangement
dans la valeur desparamètres
et de la déviance selon que l’observation à valeursuspecte
est incluse dans les données ou non(voir [19])?
Comme il
n’y
a pas eu de modification dans la valeur desparamètres
ou dela
déviance,
nous avonsopté
pour le choix degarder
ces observations dans lesdonnées,
dans la mesure où ces valeursapparaissant
comme aberrantespouvaient
être nécessaires à une estimation non biaisée des
paramètres ([ 16]).
Le modèle
logistique proposé
était-il raisonnable pour décrire les données? Sice n’était pas le cas, les données auraient dû montrer une déviation
systématique
parrapport
aux valeursprédites,
ou bienquelques
données seulement ne pas coller du tout.En
régression logistique,
les résidus n’ont pas une distribution bien connue, ils’agit
donc de simuler des données de manière à obtenir une estimation de la distributionthéorique
de ces résidus. SelonJennings ([16]), «chaque
résidu aurait sapropre
distribution,
cequi complique singulièrement
les choses. Lescomposantes
individuelles de ladéviance,
comme celles duchi2,
ont une distribution à deux maximums. Dans tous les cas, les résidus n’ont aucune raison de suivre une distribution du chi2 ou une distribution normale». Pour vérifier s’il existe ou non une déviationsystématique
de cesrésidus,
on utilise le«graphe
desprobabilités empiriques».
C’estun
graphique qui représente
en abscisse une distributionthéorique
de résidus(résidus simulés)
et en ordonnée les résidus observés obtenus parrégression logistique :
il doitêtre
linéaire,
etpermet
de détecter des écarts des données parrapport
auxhypothèses
du modèle
logistique ([17]).
La distributionthéorique
est obtenue en simulant Knouvelles variables à
expliquer;
chacune d’elles suit une loi binomialeB(l,p),p
étant le vecteur des valeurs
prédites
obtenu àpartir
des données observées sous le modèle considéré. Sur ces K nouvelles variablessimulées,
onapplique
le mêmemodèle de
façon
à obtenir un vecteur de résidus pour chacune d’elles. K distributions de résidus sont alorsobtenues,
et onprend
la médiane de ces résidus pour obtenirune
approximation
de la distributionthéorique
des résidus pour ce modèle. Legraphe
obtenu
(voir figure 1)
ne montre pas de déviationsystématique
des résidus.En l’absence de biais
d’échantillonnage,
le choix du modèlepeut
donc être considérésatisfaisant,
d’autant que les résultats des tests n’ont pas montré de contradiction avec les données ou la connaissance actuelle([2]).
Enfin, s’agissant
d’unproblème
médical deprédiction,
il étaitimportant,
àpartir
de la valeur estimée durisque
d’êtremalade,
deprocéder
à une classification des individus malades et non malades de la base de données. Plusieurs méthodes sontpossibles
pour obtenir un taux d’erreur réel des résultats de classification d’un modèle :soit tester le modèle sur de nouvelles
observations,
soit construire le modèle àpartir
d’une sélection du fichier
global
et le tester sur le reste dufichier,
cequi s’apparente
à la méthode de la validation croisée
([4]).
Nous avons retenu la deuxième méthode pour obtenir ce taux d’erreur réel.FIGURE 1 :
Graphe
des résidus obtenusaprès
simulationLes résultats
numériques
de cetterégression
se sont avérés satisfaisants etexploitables
pour lesgénéticiens
et ils sont détaillés dans[6].
Cetteétape
constitue unpréalable indispensable
à l’utilisation de lastratégie présentée
ci-dessous et visant à l’amélioration du modèle. Ce n’estqu’après
l’obtention d’un modèleayant
selectionné les variables lesplus pertinentes
que lestechniques
des modèles additifsgénéralisés peuvent
à notre avis être lesplus
efficaces.3. Une
stratégie
en modèles additifsgénéralisés
Il
s’agit,
pourchaque
variableexplicative,
de déterminer l’existence éventuelle d’une nonlinéarité,
de proposer une transformation si la non linéaritéexiste,
et devérifier, après
introduction de la variable transformée que l’on a amélioré lesperformances
du modèle. La théorie des modèles additifsgénéralisés
étant assezrécente,
il n’existe pas à notre connaissancedans
la littérature d’étude de cas bienapprofondie.
Notre démarche a été totalementempirique. Schématiquement,
nousdistinguerons
sixétapes
dans lastratégie
que nous proposons. Onrappelle
que les modèles utilisés(aussi
bien englm qu’en gam)
sont des modèles à loi binomiale avecfonction de lien
canonique (logit).
La notation«glm/
Y surX »(resp. «gam/
Y surX ») signifiera
larégression
de la variable Y sur la variable X au sens«glm/binomial-
logit»(resp. «gam/binomial-logit»).
1 )
Existe-t-il une non-linéarité ?Une non linéarité sera retenue si la
comparaison
du modèle linéairegénéralisé (glm/
Y surXy)
et du modèle additifgénéralisé (gam/
Y surXy)
montreun
changement
de déviancesignificatif.
On concluera à l’existence d’une nonlinéarité pour un
gain
en déviancesignificatif
à 0.1 % . Dans le cas contraire la variableXj
restera sous forme linéairesimple.
2) Quelle
est la forme de la fonction5j(Xy) (fonction
estimée deXj
obtenueaprès
arrêt du«backfitting algoritm») ?
La forme du
graphe
de la fonctionspline (sj (Xj))
avec les valeurs de la variable considérée(Xj) peut suggérer
une transformation non linéairequi,
dans certains cas,peut
êtrepolynomiale, logarithmique, inverse,
ou autre. S’il existe une non-linéarité,
on essaieraplusieurs
transformations naturelles au vue dugraphique.
3)
Choix de la meilleure transformation?Les différentes transformations
suggérées
sont introduites dans un modèleglm/
Y surt(Xj), t
fonction connue. Ces modèles n’étant pasemboîtés,
il n’est paspossible
ici d’utiliser un test pour lechangement
en déviance. On retient la transformationqui
procure legain
en déviance maximum pour laplus petite perte
endegré
de liberté(ddl).
Ilapparaît
intéressantd’explorer
les transformations
polynômiales,
tout en restantvigilant quant
au nombre de ddlperdus.
La fonctionspline
de GAM provoque uneperte
de 3 ddl :on utilise en effet une fonction de
spline cubique
entraînant l’estimation de 3paramètres supplémentaires.
Pour unpolynôme
d’ordre6,
cetteperte
sera de 6 ddl. C’estpourquoi, lorsqu’un polynôme
d’ordre élevé semble être la meilleuretransformation,
uneanalyse
encomposantes principales ayant
pour variables la variableXi
et sespuissances
successives esteffectuée,
et onretient les
premières composantes principales
associées aux axes deplus
forteinertie. Cette
procédure permet, lorsque
lepourcentage
d’inertie de l’ACP estsatisfaisant,
de réduire ainsi laperte
en ddl.4) Quelle
est la forme de la fonctions() après
transformation?Une transformation t
ayant
été retenue, onvérifie,
par un modèlegam/
Y surt(Xj)
la nonsignificativité
dugain
en déviance parrapport
au modèleglm/
Ysur
t(Xj);
cequi permet
de s’arrêter dans la recherche d’une transformation satisfaisante.5)
On introduit toutes les variables transformées dans le modèle.On introduit à nouveau les variables dans un modèle
glm
mais avec lestransformations
proposées.
C’est la forme transformée de la variablequi
estutilisée aussi dans les termes d’interactions. On considère alors le modèle gam
sur le même
prédicteur,
et on compare les déviances des deux modèles. Onespère
que legain
en déviance obtenu sera nonsignificatif.
6)
On vérifie que l’on a améliorél’ajustement
du modèle.Pour vérifier l’amélioration due à la méthode
GAM,
onanalyse l’adéquation
du modèle aux données ainsi que les résultats de classification a
postériori
(%
de bien classés par lemodèle, cf. application).
Une étude des résiduspermet
de vérifier leurdistribution,
ainsi que laproportion
de résidus élevés.4.
Application
sur la base de donnéesAfin d’améliorer la clarté de la
présentation
des résultatsnumériques,
nousnoterons :
ModGLM(l)
le modèle linéairegénéralisé
issus duparagraphe
2 :glm/
Y sur lesvariables
Xj
retenues.ModGAM(l)
le modèle additifgénéralisé gam/
Y sur les mêmes variablesXj.
ModGLM(2)
le modèle linéairegénéralisé
issu duparagraphe
3 :glm/
Y sur lesvariables
après
transformations notéest(Xj).
ModGAM(2)
le modèle additifgénéralisé gam/Y
sur les mêmes transformationst(Xj).
Dix effets
principaux (6
variablesquantitatives
et 4 variablesqualitatives),
et 3 termes d’interactions d’ordre 2 avaient été retenues pour le meilleur modèle
proposé ModGLM(l).
Dans le modèleModGLM(2) quatre
variablesquantitatives
sont introduites sous une forme transformée. Les transformations retenues sont les suivantes : - fonction inverse pour csbandeRl - fonction
polynomiale
du seconddegré
pour tsbandeR2 - fonctionlogarithmique
pour tsbandeRl et pour lamin.(voir
le
parapraphe
2.1 pour ladescription
de cesvariables)
La
procédure
GAM n’a pas détecté de non-linéarité pour les 2 autres variablesquantitatives (via47
etsinusadj).
Concernant lesinteractions,
deux d’entre ellescomprennent
des variablesquantitatives;
pour celles-ci laprocédure
GAM a montrél’existence d’une non-linéarité. Les meilleurs
résultats,
en terme degain
endéviance,
sont obtenus
lorsque
la variablequantitative
est introduite sous sa forme transformée dans l’interaction(exemple : origine
*t(tsbandeR1)).
TABLEAU 1
Caractéristiques
des trois modèlesModGLM(l), ModGAM(l) et ModGLM(2)
Ces résultats confirment que la
procédure
GAM améliorel’ajustement
dumodèle
ModGLM(1)
en terme de déviance. Le modèleModGLM(2)
tente de serapprocher
du modèleModGAM(l)
avec uneperte négligeable
endegré
de libertépar
rapport
au modèleModGLM(l).
Ils confirmentégalement
le faitqu’une partie
de la non-linéarité entre le
prédicteur
et les covariables a pu ainsi être éliminée. Le Tableau 2 montre lacomparaison
des déviances entre les 4 modèles.TABLEAU 2 : Résultats de déviance
A titre
d’exemple,
pour une des variables(lamin
notéeV6)
lesfigures
2 et 3montrent la forme de la fonction du
prédicteur
avant etaprès
transformation de la variable(V6Log représente log(K- lamin),
K étant choisi >lamin).
FIGURE 2 : Variable lamin avant transformation
La densité des observations est
représentée
au niveau de l’axe des abscisses par des tirets verticauxplus
ou moinsespacés.
La courbe en traitplein représente
la fonction de
lissage;
elle est encadrée par les courbes(en pointillés)
donnant sonintervalle de confiance. Les
points
gras sont les observations « malade / non-malade»par
rapport
à la variable enquestion.
Comme
l’objectif
de la modélisation était l’estimation d’unrisque
de survenued’un enfant malformé dans un but
prédictif,
nous avons aussicomparé
les résultats de classification pour les deux modèlesModGLM(l)
etModGLM(2).
FIGURE 3 : Variable lamin
après
transformationSi on classe les observations par ordre croissant de la valeur du
risque
estimé par lemodèle,
on remarque que lapremière
observation à être mal classée(risque
faiblemais individu
«malade»)
est la 294e pour le modèleModGLM(l),
et la 332e pour le modèleModGLM(2).
Ces observationsayant
servi à la construction desmodèles,
ces résultats sont à considérer comme des taux d’erreurs
apparents.
Nous avons alors calculé un taux d’erreur réel de
classification,
en choisissant des seuils derisque (voir
tableau desrésultats)
pour laprédiction
de lamaladie,
eten construisant des échantillons randomisés de validation du modèle. Pour
chaque échantillon,
70 % de lapopulation
du fichier ont servi à l’estimation desparamètres
du
modèle,
et les 30 % restants à sa validation.Les tableaux 3 et 4 montrent que la
proportion
d’observations bien classées est assezproche
avec l’un ou l’autre desmodèles,
mais que les résultats sontplus performants
avec le modèleModGLM(2)
pour lesrisques faibles ( 1%).
L’intervalle de confiance(I.C.)
est calculé comme suit : pourchaque
modèle 30 échantillons ont été tirés au hasard dans l’ensemble desdonnées;
l’I.C. est alors l’étendue dupourcentage
de bien classésaprès
exclusion de la valeur minimale et de la valeur maximale.Ces résultats ont des
conséquences pratiques importantes
pour lesgénéticiens,
en raison d’une conduite à tenir éventuellement différente pour les
risques
très faibles.TABLEAU 3
Proportion
d’observations «non malades» bien classées(taux
d’erreurréél)
TABLEAU 4
Proportion
d’observations «malades » bien classées(taux
d’erreurréél)
5. Discussion et conclusion
Sur cet
exemple,
etmalgré
l’utilisation d’une démarcheempirique,
nous avonsvérifié l’amélioration de
l’ajustement
d’un modèlelogistique lorsque
la non-linéarite du lien entre certaines variables et leprédicteur peut
êtreprise
encompte.
La
statégie
décritepeut
êtreappliquée
facilement à d’autressujets
utilisant unemodélisation de
type régression logistique
ou toute autre modélisationappartenant
à la famille des modèles linéairesgénéralisés.
Deslogiciels
commeSplus ([8]) permettent
d’avoir directement accès à la forme de la fonctions(Xj)
dans un modèle additifgénéralisé.
Cecipermet
desuggérer
defaçon
éclairée et nonplus
àl’aveugle
destransformations de variables
paraissant pertinentes.
Si
parmi
lesobjectifs
recherchés celui de laprédiction
estprédominant,
onpeut
alors se limiter à l’estimation fournie directement par le modèle additifgénéralisé.
Parcontre
lorsque l’interprétation
de l’influence des variables estl’objectif prioritaire,
les transformations
suggérées peuvent
aider àcomprendre
les mécanismes d’action de ces variables : onpeut
parexemple
détecter unphénomène
derupture
ou unphénomème
de seuil.6. Références
Bibliographiques
[1] ANTONIADIS, A., BERRUYER,
J. etCARMONA,
R.(1992) Régression
non linéaire et
applications. Economica,
Paris.[2] BONNEU,
M. etLAVERGNE,
C.(1992) Bootstrap
andAsymptotic prediction
criterion estimate for binomialproportions
in insemination data.Biometrical Journal
34 -1,
p. 69-79[3] BREIMAN,
L. andFRIEDMAN,
J.H.(1985) Estimating optimal
transfor-mations for
multiple regression
and correlation(with discussion).
J. Am. Statist.Assoc.
80,
p. 580-619.[4] BUNKE,
O. andDROGE,
B.( 1984) Bootstrap
and cross validation estimates of theprediction
error for linearregression
models. Ann. Statistics13,
p. 1400- 1424.[5] CANS, C., COHEN,
O. et coll.(1993)
Humanreciprocal
translocations : is the unbalanced mode at birthpredictable?
Human Genetic91,
p. 228-232.[6] CANS,
C. et coll.(1993) Logistic regression
model to estimate the risk of viable unbalancedoffspring
inreciprocal
translocations. Human Genetic92,
p. 598-604.[7] CANS,
C. et coll.(1994) Application
of G.A.M. in modelisation adverse outcome inreciprocal
translocations. Soumis à GeneticEpidemiology.
[8] CHAMBERS,
J. andHASTIE,
T.(1991)
Statistical models in S.Chapman
&
Hall,
New York.[9] COHEN,
O. et coll.(1992)
Humanreciprocal
translocations : a newcomputer system
forgenetic counseling.
Ann. Génét.35,
p. 193-201.[10] COHEN,
O. et coll.(1994) Viability
thresholds forpartial
trisomies and monosomies. Astudy
of 1159 viable unbalanced translocations. Human Genetic93,
p. 188-194.[11] FLACK,
M. andCHANG,
S.(1987) Frequency
ofselecting
noise variable in subsetregression analysis :
a similationstudy.
Am Statistician41,
p. 84-86.[12] GREENLAND,
S.(1989) Modeling
and variable selection inepidemiolo- gic analysis.
Am. J. Public Health79,
p. 340-349.[13] HASTIE,
T. andTIBSHIRANI,
R.(1986)
Generalized additive models(with discussion)
Statist. Sci.1,
p. 297-318.[14] HASTIE,
T. andTIBSHIRANI,
R.(1990)
Generalized additive models.Chapman
&Hall,
New York.[15] HOSMER,
D.W. andLEMESHOW,
S.(1989) Applied logistic regression.
John
Wiley
& sons, New York.[16] JENNINGS, D.E., (1986)
Outliers and residual distributions inlogistic regression.
J. Am. Statist. Assoc.81,
p. 987-990.[17] LANDWEHR, J., PREGIBON,
D. andSHOEMAKER,
A.C.(1984) Graphical
methods forassessing logistic regression
models. J. Am. Statist.Assoc.