• Aucun résultat trouvé

Les différents modèles possib les pour l’e x emple sont :

N/A
N/A
Protected

Academic year: 2022

Partager "Les différents modèles possib les pour l’e x emple sont :"

Copied!
8
0
0

Texte intégral

(1)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

La rég ression logistique

FrédéricBertrandetMyriamMaumy1 1IRMA,UniversitéLouisPasteur Strasbourg,France EcoleDoctoraleSVS24-09-2008 FrédéricBertrandetMyriamMaumyLarégressionlogistique

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Cecourssebasesurl’ouvragedeBrunoFalissardComprendre etutiliserlesstatistiquesdanslessciencesdelavie, Professeurdesuniversitésetpraticienhospitalieràlafaculté demédecineParis-Sud,etlesyllabusdeBiostatisquede PhilippeLambert,Professeur,UniversitécatholiquedeLouvain. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Exemple Nombredesourisdéveloppantunetumeuraupoumonaprès expositionàlafuméedecigarettes(Essenbergs,Science, 1952). GroupeTumeurprésenteTumeurabsenteTotal Contrôle191332 Traitement21223 Question:Existe-t-ilunecorrélationentreledéveloppement delamaladieetl’apparitionducancer? FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Pourtesterl’existencedecelienilseraitpossiblede procéderàuntestdukhi-deux(étudiéenL3): Lesdénombrementsattendussontimpriméssous lesdénombrementsobservés SuccèsEchecTotal 121223 16,736,27 2191332 23,278,73 Total401555 Khideux=1,091+2,910+0,784+2,092= 6,878 DL=1,P=0,009 FrédéricBertrandetMyriamMaumyLarégressionlogistique

(2)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Cetestnepermetpasdedéterminerlanaturedecelien, c’est-à-direcommentsontliéeslesvariationsdesdeux variables. Pourpareràcetinconvénient:Onutiliselarégression logistiquequipermetdemodéliserlaprobabilitéde succèsàl’aidedesvariablesexplicativesdontnous disposons.Cecinouspermettradetestersices changementssontsignificatifsàunniveauαdonné. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Demêmequelarégressionlinéaire(simpleoumultiple)estun prolongementdel’étudeducoefficientdecorrélationlinéairede deuxvariablesquantitatives,demêmelarégressionlogistique estunegénéralisationd’uncoefficientservantàévaluerla corrélationdedeuxvariablesqualitatives:lerapportdescôtes ouodds-ratio. Définition Onappellecôtedusuccèslerapport exp(θ)=π 1−π oùπestlaprobabilitédesuccès. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Définition Laprobabilitédesuccèss’exprimeàpartirdelacôtedesuccès delamanièresuivante: π=exp(θ) 1+exp(θ). Pourfixerlesidéesvoiciquelquesvaleursdelacôtedusuccès enfonctionlaprobabilitédesuccès.(Lelogarithmede)cette côte: est(<0)<1lorsqueπ<0.5. est(=0)=1lorsqueπ=0.5. est(>0)>1lorsqueπ>0.5. (→−∞)→0lorsqueπ→0. (→+∞)→+∞lorsqueπ→1. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Exemple Laprobabilitédesuccès(i.e.cellededévelopperunetumeur) observéeestégaleà: ˆπ=40 55=0.73 ⇓ exp(ˆθ)=ˆπ 1−ˆπ=0.73 0.27=2.67 ⇓ ˆθ=ln(2.67)=0.98. FrédéricBertrandetMyriamMaumyLarégressionlogistique

(3)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance

Le logarithme du rappor t de côtes :

Onpeutcalculerlacôtedesuccèsdansdifférentes conditions. Définition LerapportdecôtesΨpermetalorsd’évaluerl’infuencedu facteurconsidéré: Ψ=exp(θ2) exp(θ1)=exp(θ2−θ1). LorsqueΨest>1(<1)lesuccèsaunecôtesupérieure (inférieure)pourledeuxièmeniveaudufacteur. Lelogarithmedurapportdecôtes,θ2−θ1,est>0(<0) lorsquelesuccèsauneprobabilitésupérieure(inférieure) pourledeuxièmeniveaudufacteur. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Exemple Lacôtedusuccès(=«développerunetumeur»)observéeest égaleà:     

Côte(succès|Traitement)=exp(ˆθ2)=21 2=10.5 Côte(succès|Contrôle)=exp(ˆθ1)=19 13=1.46. D’où ˆ Ψ

=21·13 2·19=7.18>1 etln(ˆ Ψ)

=ˆθ2−ˆθ1=1.97>0. Lacôtedesuccèsdelatumeurestsupérieure(multipliéepar 7)lorsquelessourissontexposéesàlafuméedecigarettes. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance

Inter v alle de confiance

Sipourchaqueindividu,laprobabilitédesuccèsestπ, alorslenombreYdesuccèsparminindividus indépendantssuituneloibinomialeB(n,π).Ainsi: E[Y]=nπ;Var[Y]=nπ(1−π) E ˆπ=Y n =1 nE[Y]=π;Var[ˆπ]=1 n2Var[Y]=π(1−π) n. Unintervalledeconfiance(danslecadred’applicationde l’approximationdelaloibinomialeparuneloinormale)à 95%pourπestdonnépar: ˆπ±1.96×r ˆπ(1−ˆπ) n. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Dansnotreexempleonsouhaiteraitcomparerles probabilitésπ1etπ2dedévelopperunetumeursouset sansexpositionàlafuméedecigarettesetdéterminersi ellessontsignificativementdifférentes.Celareviendraità déterminers’ilexisteunlienentreledéveloppementdela tumeuretlefacteurrisqueconsidéré. Onpeutdéjàrépondreàcettequestionenconstruisantun intervalledeconfianceà95%pourπ1−π2. (ˆπ1−ˆπ2)±1.96×s ˆπ1(1−ˆπ1) n1+ˆπ2(1−ˆπ2) n2. FrédéricBertrandetMyriamMaumyLarégressionlogistique

(4)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Exemple 06∈(0.114,0.524) Onendéduitqueladifférenceπ1−π2estsignificativement écartéede0auseuilα=5%. Ainsionsaitnonseulementquelafuméedecigarettesaun effetsignificatifsurlenombredecancersdéveloppésmais surtoutonaquantifiéceteffet. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Remarque Dansdessituationspluscomplexes,àsavoirparexempledans descasoùilyaplusquedeuxvariablesqualitativesouplus quedeuxniveauxdufacteurquiestjouéparlavariable qualitative(onrappellequel’onparledefacteurlorsquel’onaà faireàdesvariablesqualitatives(cfl’ANOVA)),l’approche précédenteesttroplourde. ⇒Ontravaillealorsaveclescôtesdesuccèsquenousallons définir. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Définition SiXestunevariableexplicativeàKniveaux,lemodèle logistiquesupposeque: (Y|X=xk)∼B(nkk),oùk=1,···,K avec logit(πk)=ln πk 1−πkk=µ+αk;(α1=0) ⇒πk=exp(µ+αk) 1+exp(µ+αk). FrédéricBertrandetMyriamMaumyLarégressionlogistique

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Définition Lelogarithmedelacôtedesuccèssouslepremierniveaudu facteurvautµ. Définition Lelogarithmedurapportdescôtesdusuccèssousleskème et 1er niveaudufacteurvautθk−θ1k. Remarque Parconséquentunevaleurdeαk>0(<0)indiquequelacôte dusuccèsobservéeestplusgrande(petite)souslekème niveaudufacteurquesousle1er niveaudufacteur. FrédéricBertrandetMyriamMaumyLarégressionlogistique

(5)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Estimationdesαk Onestimelesαkàl’aided’uneméthodestatistique appeléeméthodedumaximumdevraisemblance. Danscecas,onsaitqu’asymptotiquement(lorsquelataille del’échantillontendversl’infini)lesestimateursdesαk suiventuneloinormaledemoyenneαketdevariance Var[ˆαk]. Deplus,cesestimateurssontsansbiais. Parconséquentunintervalledeconfianceà95%approximatif pourlesαkestdonnépar: ˆαk±1.96×σ(ˆαk). FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance

Les différents modèles possib les pour l’e x emple sont :

Modèle1avec«effetdutraitement»: logit(πk)=θk=µ+αkoùk=1ou2. Modèle2sans«effetdutraitement»(α2=0ci-dessus): logit(πk)=θk=µoùk=1ou2. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Oncomparealorslaprobabilitédesuccèsestiméedansle groupek,notée˜πketlaproportiondesuccèsobservéenotée ˆπk. Définition LadévianceDestalorsdéfinieainsi: D=−2X k

ykln

˜πk ˆπk

+(nk−yk)ln

1−˜πk 1−ˆπk

=−2(l(˜πk)−l(ˆπk)). Cettequantitéestàrapprocherdelasommedescarrésà minimiserdanslarégressionlinéairesimpleoumultiple.Elle évalueglobalementlaqualitédel’ajustementobtenu. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Ledeuxièmemodèlenefaitpasintervenirdevariable explicative.Ilpeutserviràtesterlanullitédetouteslespentes: l’équivalentdutestdeFisherglobaldanslecadredela régressionlogistique. OncalculelastatistiqueG2 =D2−D1=−2(l2−l1)comparant ladéviancedesdeuxmodèles. Définition Sousl’hypothèsenulleH0quelesrestrictionsimpliquéesparle modèle2aumodèle1sontcorrectes, GH0 ∼χ2 ddl2ddl1. FrédéricBertrandetMyriamMaumyLarégressionlogistique

(6)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Exemple Sousl’hypothèsenulle H02=0 ona G2=7.635,ddl1=0,ddl2=1,etp=0.006. Cequipermetdedéciderqueα2estsignificativementdifférent de0auniveauα=5%.Onobtientégalementlesinformations suivantes:ˆµ=0.38etˆα2=1.97.Cecipermetdecalculerles probabilitésdesuccès:0.59et0.91.Lerapportdescôtesdu groupeexposécontrelegroupedecontrôleestestimépar exp(ˆα2)=7.24soitunecôtedesuccèsplusde7foisplus grandepourlegroupedestraités. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Onpeutconstruireunintervalledeconfiance(approximatif) (1−α)·100%pourlelogarithmedurapportdecôtes(abrégé enLRC)dugroupekcontrelegroupederéférenceαkavec ˆαk±1.96×σ(ˆαk). Exemple Dansnotreexemple,onobtient:α2∈(0.36;3,58)confirmant lerejetdel’hypothèsenulleH0(avecα=5%)etl’augmentation significativededévelopperuncancerdupoumonaprès expositionàlafuméedecigarettes.L’intervalledeconfiance approximatifpourlerapportdecôteestalorségalà (1.43,36.0). FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Exemple Voiciunsecondexemplequel’onvatraiteravecMinitab. Relationentreleshabitudestabagiquesd’étudiantsenArizona etleshabitudesdeleursparents(Agresti,1990,p.124). NombredeEnfantEnfant parentsfumeursfumeurnonfumeurTotal Deux40013801780 Unseul41618232239 Aucun18811681358 FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Ondéfinitlesuccèscommeétantlefaitdefumerpourl’enfant, lemodèlelogistiqueprécédentdevient: logit(πk)=θk=µ+αk;(α1=0). Lacatégoriederéférenceestpardéfaut“Aucun”.Onutilise Minitabpourmeneràbienl’analyse.Onpeuttesterl’hypothèse null H023=0 encomparantladéviancedecemodèleaveccelledu précedent.G2 obs=38.37d’oùunep-valeurde0.000. Conclusiondutest:Associationsignificativeauniveau α=5%entrehabitudestabagiquesdesparentsetdesenfants. FrédéricBertrandetMyriamMaumyLarégressionlogistique

(7)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Exemple Effetdelacypermethrineàdifférentesdoses(enµg)surla surviedeparasites.Pourchaqueniveaudedose,20parasites sontexposés.Lasurvieéventuelledel’animalestévaluée après72heures.Lesanimauxpeuventêtredistinguésparleur sexe(Collett,1991,CRC,P.75). DoseNmortsDoseNmorts MâleFemelle 1110 2422 4946 813810 16181612 32203216 FrédéricBertrandetMyriamMaumyLarégressionlogistique

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

V ariab le e xplicative contin ue

Ignoronslesexedel’animalenpremierlieu. Question:Existe-t-ilunlienentrelamortd’unelarveetla dosereçue?Siouiquelleestlanaturedecetterelation? FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Oncherchedoncàdéterminercommentlaprobabilitéde succèsπchangeavecuneouplusieursvariables explicativescontinuesàpartirdesobservationsdeyi succèsenniexpériencesindépendantessousdesvaleurs deXobservéeségalesàxi,(i=1,...,I). Onsouhaiteutiliserunemodélisationdelacôtedesuccès sachantqueX=x,c’est-à-dire: (Y|X=xi)∼B(nii) logit(πi)=θii(xi). FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Pouravoirunepremièreidéedelarelationentrelacôtede succèsetX,onexaminelelogarithmedelacôteempirique contrexi: ˜θi=ln yi+0.5 ni−yi+0.5 . Ons’aperçoitqu’unetransformationlogarithmiqueseraitla bienvenue. FrédéricBertrandetMyriamMaumyLarégressionlogistique

(8)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Lemodèlesuggéréestdonc: (Y|X=xi)∼B(nii) avec logit(πi)=θi01xi où xi=log(dosei). FrédéricBertrandetMyriamMaumyLarégressionlogistique

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Régression logistique : v ariab les e xplicatives mixtes

Dansl’exempleprécédent,onaignorél’influence potentielledusexesurlaprobabilitédesuccès.L’analyse précédenteindiquequeladoseinfluedemanière significativesurlaprobabilitéqu’unelarvemeurt. Considéronslecassimpleoùonaàlafoisunevariable continueXetunevariablequalitativeZ.Lesdonnéessont doncdutype(yki,nki,xki,zki).Lemodèlesuggéréest donc: (Y|X=xki,Z=zki)∼B(nkiki) avec logit(πki)=θki. FrédéricBertrandetMyriamMaumyLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Nousavonsdonc5modèlesànotredisposition: X+Z+X*Z,(α0k)+(β1k)xki. X+Z,(α0k)+β1xki. X,α01xki. Z,α0k. 1,α0. Resteàdétecterlesmodèlesconvenablesàl’aidedutestdu G2 .Pourcela,onutiliseMinitabetlefichierdedonnées disponiblesurlesite. FrédéricBertrandetMyriamMaumyLarégressionlogistique

Références

Documents relatifs

En d´ eduire que la suite (f n ) n∈ N converge uniform´ ement vers une fonction f continue et croissante..

Les relations de la question précédente présentent une certaine analogie avec celles dénissant les coecients du binôme... Application à un calcul

Ces polynômes sont très proches des polynômes de

On obtiendra donc l'équivalence demandée par un simple théorème d'encadrement à condition de démontrer d'abord que la somme des k 1 est négligeable

On obtiendra donc l'équivalence demandée par un simple théorème d'encadrement à condition de démontrer d'abord que la somme des k 1 est négligeable

Question

Montrer que tout polynôme non nul admet un unique antécédent pour ∆ divisible par X.. Application à un calcul

[r]