Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
La rég ression logistique
FrédéricBertrandetMyriamMaumy1 1IRMA,UniversitéLouisPasteur Strasbourg,France EcoleDoctoraleSVS24-09-2008 FrédéricBertrandetMyriamMaumyLarégressionlogistiqueIntroduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Cecourssebasesurl’ouvragedeBrunoFalissardComprendre etutiliserlesstatistiquesdanslessciencesdelavie, Professeurdesuniversitésetpraticienhospitalieràlafaculté demédecineParis-Sud,etlesyllabusdeBiostatisquede PhilippeLambert,Professeur,UniversitécatholiquedeLouvain. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance Exemple Nombredesourisdéveloppantunetumeuraupoumonaprès expositionàlafuméedecigarettes(Essenbergs,Science, 1952). GroupeTumeurprésenteTumeurabsenteTotal Contrôle191332 Traitement21223 Question:Existe-t-ilunecorrélationentreledéveloppement delamaladieetl’apparitionducancer? FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance Pourtesterl’existencedecelienilseraitpossiblede procéderàuntestdukhi-deux(étudiéenL3): Lesdénombrementsattendussontimpriméssous lesdénombrementsobservés SuccèsEchecTotal 121223 16,736,27 2191332 23,278,73 Total401555 Khideux=1,091+2,910+0,784+2,092= 6,878 DL=1,P=0,009 FrédéricBertrandetMyriamMaumyLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance Cetestnepermetpasdedéterminerlanaturedecelien, c’est-à-direcommentsontliéeslesvariationsdesdeux variables. Pourpareràcetinconvénient:Onutiliselarégression logistiquequipermetdemodéliserlaprobabilitéde succèsàl’aidedesvariablesexplicativesdontnous disposons.Cecinouspermettradetestersices changementssontsignificatifsàunniveauαdonné. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance Demêmequelarégressionlinéaire(simpleoumultiple)estun prolongementdel’étudeducoefficientdecorrélationlinéairede deuxvariablesquantitatives,demêmelarégressionlogistique estunegénéralisationd’uncoefficientservantàévaluerla corrélationdedeuxvariablesqualitatives:lerapportdescôtes ouodds-ratio. Définition Onappellecôtedusuccèslerapport exp(θ)=π 1−π oùπestlaprobabilitédesuccès. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance Définition Laprobabilitédesuccèss’exprimeàpartirdelacôtedesuccès delamanièresuivante: π=exp(θ) 1+exp(θ). Pourfixerlesidéesvoiciquelquesvaleursdelacôtedusuccès enfonctionlaprobabilitédesuccès.(Lelogarithmede)cette côte: est(<0)<1lorsqueπ<0.5. est(=0)=1lorsqueπ=0.5. est(>0)>1lorsqueπ>0.5. (→−∞)→0lorsqueπ→0. (→+∞)→+∞lorsqueπ→1. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance Exemple Laprobabilitédesuccès(i.e.cellededévelopperunetumeur) observéeestégaleà: ˆπ=40 55=0.73 ⇓ exp(ˆθ)=ˆπ 1−ˆπ=0.73 0.27=2.67 ⇓ ˆθ=ln(2.67)=0.98. FrédéricBertrandetMyriamMaumyLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance
Le logarithme du rappor t de côtes :
Onpeutcalculerlacôtedesuccèsdansdifférentes conditions. Définition LerapportdecôtesΨpermetalorsd’évaluerl’infuencedu facteurconsidéré: Ψ=exp(θ2) exp(θ1)=exp(θ2−θ1). LorsqueΨest>1(<1)lesuccèsaunecôtesupérieure (inférieure)pourledeuxièmeniveaudufacteur. Lelogarithmedurapportdecôtes,θ2−θ1,est>0(<0) lorsquelesuccèsauneprobabilitésupérieure(inférieure) pourledeuxièmeniveaudufacteur. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtesExemple Rapportdescôtes Intervalledeconfiance Exemple Lacôtedusuccès(=«développerunetumeur»)observéeest égaleà:
Côte(succès|Traitement)=exp(ˆθ2)=21 2=10.5 Côte(succès|Contrôle)=exp(ˆθ1)=19 13=1.46. D’où ˆ Ψ
=21·13 2·19=7.18>1 etln(ˆ Ψ)
=ˆθ2−ˆθ1=1.97>0. Lacôtedesuccèsdelatumeurestsupérieure(multipliéepar 7)lorsquelessourissontexposéesàlafuméedecigarettes. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance
Inter v alle de confiance
Sipourchaqueindividu,laprobabilitédesuccèsestπ, alorslenombreYdesuccèsparminindividus indépendantssuituneloibinomialeB(n,π).Ainsi: E[Y]=nπ;Var[Y]=nπ(1−π) E ˆπ=Y n =1 nE[Y]=π;Var[ˆπ]=1 n2Var[Y]=π(1−π) n. Unintervalledeconfiance(danslecadred’applicationde l’approximationdelaloibinomialeparuneloinormale)à 95%pourπestdonnépar: ˆπ±1.96×r ˆπ(1−ˆπ) n. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtesExemple Rapportdescôtes Intervalledeconfiance Dansnotreexempleonsouhaiteraitcomparerles probabilitésπ1etπ2dedévelopperunetumeursouset sansexpositionàlafuméedecigarettesetdéterminersi ellessontsignificativementdifférentes.Celareviendraità déterminers’ilexisteunlienentreledéveloppementdela tumeuretlefacteurrisqueconsidéré. Onpeutdéjàrépondreàcettequestionenconstruisantun intervalledeconfianceà95%pourπ1−π2. (ˆπ1−ˆπ2)±1.96×s ˆπ1(1−ˆπ1) n1+ˆπ2(1−ˆπ2) n2. FrédéricBertrandetMyriamMaumyLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance Exemple 06∈(0.114,0.524) Onendéduitqueladifférenceπ1−π2estsignificativement écartéede0auseuilα=5%. Ainsionsaitnonseulementquelafuméedecigarettesaun effetsignificatifsurlenombredecancersdéveloppésmais surtoutonaquantifiéceteffet. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Remarque Dansdessituationspluscomplexes,àsavoirparexempledans descasoùilyaplusquedeuxvariablesqualitativesouplus quedeuxniveauxdufacteurquiestjouéparlavariable qualitative(onrappellequel’onparledefacteurlorsquel’onaà faireàdesvariablesqualitatives(cfl’ANOVA)),l’approche précédenteesttroplourde. ⇒Ontravaillealorsaveclescôtesdesuccèsquenousallons définir. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Définition SiXestunevariableexplicativeàKniveaux,lemodèle logistiquesupposeque: (Y|X=xk)∼B(nk,πk),oùk=1,···,K avec logit(πk)=ln πk 1−πk =θk=µ+αk;(α1=0) ⇒πk=exp(µ+αk) 1+exp(µ+αk). FrédéricBertrandetMyriamMaumyLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Définition Lelogarithmedelacôtedesuccèssouslepremierniveaudu facteurvautµ. Définition Lelogarithmedurapportdescôtesdusuccèssousleskème et 1er niveaudufacteurvautθk−θ1=αk. Remarque Parconséquentunevaleurdeαk>0(<0)indiquequelacôte dusuccèsobservéeestplusgrande(petite)souslekème niveaudufacteurquesousle1er niveaudufacteur. FrédéricBertrandetMyriamMaumyLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Estimationdesαk Onestimelesαkàl’aided’uneméthodestatistique appeléeméthodedumaximumdevraisemblance. Danscecas,onsaitqu’asymptotiquement(lorsquelataille del’échantillontendversl’infini)lesestimateursdesαk suiventuneloinormaledemoyenneαketdevariance Var[ˆαk]. Deplus,cesestimateurssontsansbiais. Parconséquentunintervalledeconfianceà95%approximatif pourlesαkestdonnépar: ˆαk±1.96×σ(ˆαk). FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance
Les différents modèles possib les pour l’e x emple sont :
Modèle1avec«effetdutraitement»: logit(πk)=θk=µ+αkoùk=1ou2. Modèle2sans«effetdutraitement»(α2=0ci-dessus): logit(πk)=θk=µoùk=1ou2. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtesDéfinitions Lesmodèles Déviance Oncomparealorslaprobabilitédesuccèsestiméedansle groupek,notée˜πketlaproportiondesuccèsobservéenotée ˆπk. Définition LadévianceDestalorsdéfinieainsi: D=−2X k
ykln
˜πk ˆπk
+(nk−yk)ln
1−˜πk 1−ˆπk
=−2(l(˜πk)−l(ˆπk)). Cettequantitéestàrapprocherdelasommedescarrésà minimiserdanslarégressionlinéairesimpleoumultiple.Elle évalueglobalementlaqualitédel’ajustementobtenu. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Ledeuxièmemodèlenefaitpasintervenirdevariable explicative.Ilpeutserviràtesterlanullitédetouteslespentes: l’équivalentdutestdeFisherglobaldanslecadredela régressionlogistique. OncalculelastatistiqueG2 =D2−D1=−2(l2−l1)comparant ladéviancedesdeuxmodèles. Définition Sousl’hypothèsenulleH0quelesrestrictionsimpliquéesparle modèle2aumodèle1sontcorrectes, GH0 ∼χ2 ddl2−ddl1. FrédéricBertrandetMyriamMaumyLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Exemple Sousl’hypothèsenulle H0:α2=0 ona G2=7.635,ddl1=0,ddl2=1,etp=0.006. Cequipermetdedéciderqueα2estsignificativementdifférent de0auniveauα=5%.Onobtientégalementlesinformations suivantes:ˆµ=0.38etˆα2=1.97.Cecipermetdecalculerles probabilitésdesuccès:0.59et0.91.Lerapportdescôtesdu groupeexposécontrelegroupedecontrôleestestimépar exp(ˆα2)=7.24soitunecôtedesuccèsplusde7foisplus grandepourlegroupedestraités. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Onpeutconstruireunintervalledeconfiance(approximatif) (1−α)·100%pourlelogarithmedurapportdecôtes(abrégé enLRC)dugroupekcontrelegroupederéférenceαkavec ˆαk±1.96×σ(ˆαk). Exemple Dansnotreexemple,onobtient:α2∈(0.36;3,58)confirmant lerejetdel’hypothèsenulleH0(avecα=5%)etl’augmentation significativededévelopperuncancerdupoumonaprès expositionàlafuméedecigarettes.L’intervalledeconfiance approximatifpourlerapportdecôteestalorségalà (1.43,36.0). FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Exemple Voiciunsecondexemplequel’onvatraiteravecMinitab. Relationentreleshabitudestabagiquesd’étudiantsenArizona etleshabitudesdeleursparents(Agresti,1990,p.124). NombredeEnfantEnfant parentsfumeursfumeurnonfumeurTotal Deux40013801780 Unseul41618232239 Aucun18811681358 FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Ondéfinitlesuccèscommeétantlefaitdefumerpourl’enfant, lemodèlelogistiqueprécédentdevient: logit(πk)=θk=µ+αk;(α1=0). Lacatégoriederéférenceestpardéfaut“Aucun”.Onutilise Minitabpourmeneràbienl’analyse.Onpeuttesterl’hypothèse null H0:α2=α3=0 encomparantladéviancedecemodèleaveccelledu précedent.G2 obs=38.37d’oùunep-valeurde0.000. Conclusiondutest:Associationsignificativeauniveau α=5%entrehabitudestabagiquesdesparentsetdesenfants. FrédéricBertrandetMyriamMaumyLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Exemple Effetdelacypermethrineàdifférentesdoses(enµg)surla surviedeparasites.Pourchaqueniveaudedose,20parasites sontexposés.Lasurvieéventuelledel’animalestévaluée après72heures.Lesanimauxpeuventêtredistinguésparleur sexe(Collett,1991,CRC,P.75). DoseNmortsDoseNmorts MâleFemelle 1110 2422 4946 813810 16181612 32203216 FrédéricBertrandetMyriamMaumyLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
V ariab le e xplicative contin ue
Ignoronslesexedel’animalenpremierlieu. Question:Existe-t-ilunlienentrelamortd’unelarveetla dosereçue?Siouiquelleestlanaturedecetterelation? FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Oncherchedoncàdéterminercommentlaprobabilitéde succèsπchangeavecuneouplusieursvariables explicativescontinuesàpartirdesobservationsdeyi succèsenniexpériencesindépendantessousdesvaleurs deXobservéeségalesàxi,(i=1,...,I). Onsouhaiteutiliserunemodélisationdelacôtedesuccès sachantqueX=x,c’est-à-dire: (Y|X=xi)∼B(ni,πi) logit(πi)=θi=θi(xi). FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Pouravoirunepremièreidéedelarelationentrelacôtede succèsetX,onexaminelelogarithmedelacôteempirique contrexi: ˜θi=ln yi+0.5 ni−yi+0.5 . Ons’aperçoitqu’unetransformationlogarithmiqueseraitla bienvenue. FrédéricBertrandetMyriamMaumyLarégressionlogistiqueIntroduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Lemodèlesuggéréestdonc: (Y|X=xi)∼B(ni,πi) avec logit(πi)=θi=α0+β1xi où xi=log(dosei). FrédéricBertrandetMyriamMaumyLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes