Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
La rég ression logistique
FrédéricetMyriamBertrand1 1IRMA,UniversitéLouisPasteur Strasbourg,France Master2èmeAnnée27-11-2006 FrédéricetMyriamBertrandLarégressionlogistiqueIntroduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Cecourssebasesurl’ouvragedeBrunoFalissardComprendre etutiliserlesstatistiquesdanslessciencesdelavie, Professeurdesuniversitésetpraticienhospitalieràlafaculté demédecineParis-Sud,etlesyllabusdeBiostatisquede PhilippeLambert,Professeur,UniversitécatholiquedeLouvain. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance Exemple Nombredesourisdéveloppantunetumeuraupoumonaprès expositionàlafuméedecigarettes(Essenbergs,Science, 1952). GroupeTumeurprésenteTumeurabsenteTotal Contrôle191332 Traitement21223 Question:Existe-t-ilunecorrélationentreledéveloppement delamaladieetl’apparitionducancer? FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance Pourtesterl’existencedecelienilseraitpossiblede procéderàuntestdukhi-deux(étudiéenL3): Lesdénombrementsattendussontimpriméssous lesdénombrementsobservés SuccèsEchecTotal 121223 16,736,27 2191332 23,278,73 Total401555 Khideux=1,091+2,910+0,784+2,092= 6,878 DL=1,P=0,009 FrédéricetMyriamBertrandLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance Cetestnepermetpasdedéterminerlanaturedecelien, c’est-à-direcommentsontliéeslesvariationsdesdeux variables. Pourpareràcetinconvénient:Onutiliselarégression logistiquequipermetdemodéliserlaprobabilitéde succèsàl’aidedesvariablesexplicativesdontnous disposons.Cecinouspermettradetestersices changementssontsignificatifsàunniveauαdonné. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance Demêmequelarégressionlinéaire(simpleoumultiple)estun prolongementdel’étudeducoefficientdecorrélationlinéairede deuxvariablesquantitatives,demêmelarégressionlogistique estunegénéralisationd’uncoefficientservantàévaluerla corrélationdedeuxvariablesqualitatives:lerapportdescôtes ouodds-ratio. Définition Onappellecôtedusuccèslerapport exp(θ)=π 1−π oùπestlaprobabilitédesuccès. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance Laprobabilitédesuccéss’exprimeàpartirdelacôtedesuccès delamanièresuivante: π=exp(θ) 1+exp(θ). Pourfixerlesidéesvoiciquelquesvaleursdelacôtedusuccès enfonctionlaprobabilitédesuccès.(Lelogarithmede)cette côte: est(<0)<1lorsqueπ<0.5. est(=0)=1lorsqueπ=0.5. est(>0)>1lorsqueπ>0.5. (→−∞)→0lorsqueπ→0. (→+∞)→+∞lorsqueπ→1. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance Exemple Laprobabilitédesuccès(i.e.cellededévelopperunetumeur) observéeestégaleà: ˆπ=40 55=0.73 ⇓ exp(ˆθ)=ˆπ 1−ˆπ=2.67 ⇓ ˆθ=0.98. FrédéricetMyriamBertrandLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance
Le logarithme du rappor t de côtes :
Onpeutcalculerlacôtedesuccèsdansdifférentes conditions.LerapportdecôtesΨpermetalorsd’évaluer l’infuencedufacteurconsidéré: Ψ=exp(θ2) exp(θ1)=exp(θ2−θ1). LorsqueΨest>1(<1)lesuccèsaunecôtesupérieure (inférieure)pourledeuxièmeniveaudufacteur. Lelogarithmedurapportdecôtes,θ2−θ1,est>0(<0) lorsquelesuccèsauneprobabilitésupérieure(inférieure) pourledeuxièmeniveaudufacteur. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtesExemple Rapportdescôtes Intervalledeconfiance Exemple Lacôtedusuccès(=“développerunetumeur”)observéeest égaleà:
Côte(succès|exposé)=exp(ˆθ2)=21 2=10.5 Côte(succès|contrôle)=exp(ˆθ1)=19 13=1.46 d’où 21·13 ˆ Ψ==7.18>1 19·2 ˆ Ψ)etlog(
=ˆθ2−ˆθ1=1.97>0. Lacôtedesuccèsdelatumeurestsupérieure(multipliéepar 7)lorsquelessourissontexposéesàlafuméedecigarettes. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance
Inter v alle de confiance
Sipourchaqueindividu,laprobabilitédesuccèsestπ, alors,lenombreYdesuccèsparminindividus indépendantssuituneloibinomialeB(n,π).Ainsi: E[Y]=nπ;Var[Y]=nπ(1−π) E ˆπ=Y n =1 nE[Y]=π;Var[ˆπ]=1 n2Var[Y]=π(1−π) n. Unintervalledeconfiance(danslecadred’applicationde l’approximationdelaloibinomialeparuneloinormale)à 95%pourπestdonnépar: ˆπ±1.96r ˆπ(1−ˆπ) n. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtesExemple Rapportdescôtes Intervalledeconfiance Dansnotreexempleonsouhaiteraitcomparerles probabilitésπ1etπ2dedévelopperunetumeursouset sansexpositionàlafuméedecigarettesetdéterminersi ellessontsignificativementdifférentes.Celareviendraità déterminers’ilexisteunlienentreledéveloppementdela tumeuretlefacteurrisqueconsidéré. Onpeutdéjàrépondreàcettequestionenconstruisantun intervalledeconfianceà95%pourπ1−π2. (ˆπ1−ˆπ2)±1.96s ˆπ1(1−ˆπ1) n1+ˆπ2(1−ˆπ2) n2. FrédéricetMyriamBertrandLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Exemple Rapportdescôtes Intervalledeconfiance Exemple 06∈(0.114,0.524) Onendéduitqueladifférenceπ1−π2estsignificativement écartéede0auseuilα=5%.Ainsionsaitnonseulementla fuméedecigarettesauneffetsignificatifsurlenombrede cancerdéveloppésmaisonaquantifiéceteffet. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Dansdessituationspluscomplexes(plusdedeux variablesoudedeuxniveauxdufacteur)l’approche précédenteesttroplourde.Ontravaillealorsavecles côtesdesuccès. SiXestunevariableexplicativeàKniveaux,lemodèle logistiquesupposeque: (Y|X=xk)∼B(nk,πk) avec logit(πk)=log
πk 1−πk
=θk=µ+αk;(α1=0) ⇒πk=exp(µ+αk) 1+exp(µ+αk). FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Lelogarithmedelacôtedesuccèssouslepremierniveau dufacteurvautµ. Lelogarithmedurapportdescôtesdusuccèssousles kème et1er niveaudufacteurvautθk−θ1=αk. Parconséquentunevaleurdeαk>0(<0)indiquequela côtedusuccèsobservéeestplusgrande(petite)sousle kème niveaudufacteurquesousle1er niveaudufacteur. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Estimationdesαk Onestimelesαkàl’aided’uneméthodestatistique appeléeméthodedumaximumdevraisemblance. Danscecas,onsaitqu’asymptotiquement(lorsquelataille del’échantillontendversl’infini)lesestimateursdesαk suiventuneloinormaledeparamètresµetσ2 à déterminer. Deplus,cesestimateurssontsansbiais. Parconséquentunintervalledeconfianceà95%approximatif pourlesαkestdonnépar: ˆαk±1.96×σ(ˆαk). FrédéricetMyriamBertrandLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance
Les différents modèles possib les sont :
Modèle1aveceffettraitement: logit(πk)=θk=µ+αk. Modèle2sanseffettraitement(α2=0ci-dessus): logit(πk)=θk=µ. FrédéricetMyriamBertrandLarégressionlogistiqueIntroduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Oncomparealorslaprobabilitédesuccèsestiméedansle groupek,notée˜πketlaproportiondesuccèsobservéenotée ˆπk. Définition LadévianceDestalorsdéfinieainsi: D=−2X k
yklog
˜πk ˆπk
+(nk−yk)log
1−˜πk 1−ˆπk
=−2(l(˜πk)−l(ˆπk)). Cettequantitéestàrapprocherdelasommedescarrésà minimiserdanslarégressionlinéairesimpleoumultiple.Elle évalueglobalementlaqualitédel’ajustementobtenu. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Ledeuxièmemodèlenefaitpasintervenirdevariable explicative.Ilpeutserviràtesterlanullitédetouteslespentes: l’équivalentdutestdeFisherglobaldanslecadredela régressionlogistique. OncalculelastatistiqueG2 =D2−D1=−2(l2−l1)comparant ladéviancedesdeuxmodèles. Définition Sousl’hypothèsenulleH0quelesrestrictionsimpliquéesparle modèle2aumodèle1sontcorrectes, GH0 ∼χ2 ddl2−ddl1. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Exemple Sousl’hypothèsenulle H0:α2=0 ona G2=7.635,ddl1=0,ddl2=1,etp=0.006. Cequipermetdedéciderqueα2estsignificativementdifférent de0auniveauα=5%.Onobtientégalementlesinformations suivantes:ˆµ=0.38etˆα2=1.97.Cecipermetdecalculerles probabilitésdesuccès:0.59et0.91.Lerapportdescôtesdu groupeexposécontrelegroupedecontrôleestestimépar exp(ˆα2)=7.24soitunecôtedesuccèsplusde7foisplus grandepourlegroupedestraités. FrédéricetMyriamBertrandLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Onpeutconstruireunintervalledeconfiance(approximatif) (1−α)·100%pourlelogarithmedurapportdecôtes(abrégé enLRC)dugroupekcontrelegroupederéférenceαkavec ˆαk±1.96×σ(ˆαk). Exemple Dansnotreexemple,onobtient:α2∈(0.36;3,58)confirmant lerejetdel’hypothèsenulleH0(avecα=5%)etl’augmentation significativededévelopperuncancerdupoumonaprès expositionàlafuméedecigarettes.L’intervalledeconfiance approximatifpourlerapportdecôteestalorségalà (1.43,36.0). FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Exemple Voiciunsecondexemplequel’onvatraiteravecMinitab. Relationentreleshabitudestabagiquesd’étudiantsenArizona etleshabitudesdeleursparents(Agresti,1990,p.124). NombredeEnfantEnfant parentsfumeursfumeurnonfumeurTotal Deux40013801780 Unseul41618232239 Aucun18811681358 FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
Définitions Lesmodèles Déviance Ondéfinitlesuccèscommeétantlefaitdefumerpourl’enfant, lemodèlelogistiqueprécédentdevient: logit(πk)=θk=µ+αk;(α1=0). Lacatégoriederéférenceestpardéfaut“Aucun”.Onutilise Minitabpourmeneràbienl’analyse.Onpeuttesterl’hypothèse null H0:α2=α3=0 encomparantladéviancedecemodèleaveccelledu précedent.G2 obs=38.37d’oùunep-valeurde0.000. Conclusiondutest:Associationsignificativeauniveau α=5%entrehabitudestabagiquesdesparentsetdesenfants. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Exemple Effetdelacypermethrineàdifférentesdoses(enµg)surla surviedeparasites.Pourchaqueniveaudedose,20parasites sontexposés.Lasurvieéventuelledel’animalestévaluée après72heures.Lesanimauxpeuventêtredistinguésparleur sexe(Collett,1991,CRC,P.75). DoseNmortsDoseNmorts MâleFemelle 1110 2422 4946 813810 16181612 32203216 FrédéricetMyriamBertrandLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes
V ariab le e xplicative contin ue
Ignoronslesexedel’animalenpremierlieu. Question:Existe-t-ilunlienentrelamortd’unelarveetla dosereçue?Siouiquelleestlanaturedecetterelation? FrédéricetMyriamBertrandLarégressionlogistiqueIntroduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Oncherchedoncàdéterminercommentlaprobabilitéde succèsπchangeavecuneouplusieursvariables explicativescontinuesàpartirdesobservationsdeyi succèsenniexpériencesindépendantessousdesvaleurs deXobservéeségalesàxi,(i=1,...,I). Onsouhaiteutiliserunemodélisationdelacôtedesuccès sachantqueX=x,c’est-à-dire: (Y|X=xi)∼B(ni,πi) logit(πi)=θi=θi(xi). FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Pouravoirunepremièreidéedelarelationentrelacôtede succèsetX,onexaminelelogarithmedelacôteempirique contrexi: ˜θi=log
yi+0.5 ni−yi+0.5
. Ons’aperçoitqu’unetransformationlogarithmiqueseraitla bienvenue. FrédéricetMyriamBertrandLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Lemodèlesuggéréestdonc: (Y|X=xi)∼B(ni,πi) avec logit(πi)=θi=α0+β1xi où xi=log(dosei). FrédéricetMyriamBertrandLarégressionlogistique
Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes