• Aucun résultat trouvé

La rég ression logistique

N/A
N/A
Protected

Academic year: 2022

Partager "La rég ression logistique"

Copied!
8
0
0

Texte intégral

(1)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

La rég ression logistique

FrédéricetMyriamBertrand1 1IRMA,UniversitéLouisPasteur Strasbourg,France Master2èmeAnnée27-11-2006 FrédéricetMyriamBertrandLarégressionlogistique

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Cecourssebasesurl’ouvragedeBrunoFalissardComprendre etutiliserlesstatistiquesdanslessciencesdelavie, Professeurdesuniversitésetpraticienhospitalieràlafaculté demédecineParis-Sud,etlesyllabusdeBiostatisquede PhilippeLambert,Professeur,UniversitécatholiquedeLouvain. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Exemple Nombredesourisdéveloppantunetumeuraupoumonaprès expositionàlafuméedecigarettes(Essenbergs,Science, 1952). GroupeTumeurprésenteTumeurabsenteTotal Contrôle191332 Traitement21223 Question:Existe-t-ilunecorrélationentreledéveloppement delamaladieetl’apparitionducancer? FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Pourtesterl’existencedecelienilseraitpossiblede procéderàuntestdukhi-deux(étudiéenL3): Lesdénombrementsattendussontimpriméssous lesdénombrementsobservés SuccèsEchecTotal 121223 16,736,27 2191332 23,278,73 Total401555 Khideux=1,091+2,910+0,784+2,092= 6,878 DL=1,P=0,009 FrédéricetMyriamBertrandLarégressionlogistique

(2)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Cetestnepermetpasdedéterminerlanaturedecelien, c’est-à-direcommentsontliéeslesvariationsdesdeux variables. Pourpareràcetinconvénient:Onutiliselarégression logistiquequipermetdemodéliserlaprobabilitéde succèsàl’aidedesvariablesexplicativesdontnous disposons.Cecinouspermettradetestersices changementssontsignificatifsàunniveauαdonné. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Demêmequelarégressionlinéaire(simpleoumultiple)estun prolongementdel’étudeducoefficientdecorrélationlinéairede deuxvariablesquantitatives,demêmelarégressionlogistique estunegénéralisationd’uncoefficientservantàévaluerla corrélationdedeuxvariablesqualitatives:lerapportdescôtes ouodds-ratio. Définition Onappellecôtedusuccèslerapport exp(θ)=π 1−π oùπestlaprobabilitédesuccès. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Laprobabilitédesuccéss’exprimeàpartirdelacôtedesuccès delamanièresuivante: π=exp(θ) 1+exp(θ). Pourfixerlesidéesvoiciquelquesvaleursdelacôtedusuccès enfonctionlaprobabilitédesuccès.(Lelogarithmede)cette côte: est(<0)<1lorsqueπ<0.5. est(=0)=1lorsqueπ=0.5. est(>0)>1lorsqueπ>0.5. (→−∞)→0lorsqueπ→0. (→+∞)→+∞lorsqueπ→1. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Exemple Laprobabilitédesuccès(i.e.cellededévelopperunetumeur) observéeestégaleà: ˆπ=40 55=0.73 ⇓ exp(ˆθ)=ˆπ 1−ˆπ=2.67 ⇓ ˆθ=0.98. FrédéricetMyriamBertrandLarégressionlogistique

(3)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance

Le logarithme du rappor t de côtes :

Onpeutcalculerlacôtedesuccèsdansdifférentes conditions.LerapportdecôtesΨpermetalorsd’évaluer l’infuencedufacteurconsidéré: Ψ=exp(θ2) exp(θ1)=exp(θ2−θ1). LorsqueΨest>1(<1)lesuccèsaunecôtesupérieure (inférieure)pourledeuxièmeniveaudufacteur. Lelogarithmedurapportdecôtes,θ2−θ1,est>0(<0) lorsquelesuccèsauneprobabilitésupérieure(inférieure) pourledeuxièmeniveaudufacteur. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Exemple Lacôtedusuccès(=“développerunetumeur”)observéeest égaleà:     

Côte(succès|exposé)=exp(ˆθ2)=21 2=10.5 Côte(succès|contrôle)=exp(ˆθ1)=19 13=1.46 d’où 21·13 ˆ Ψ==7.18>1 19·2 ˆ Ψ)etlog(

=ˆθ2−ˆθ1=1.97>0. Lacôtedesuccèsdelatumeurestsupérieure(multipliéepar 7)lorsquelessourissontexposéesàlafuméedecigarettes. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance

Inter v alle de confiance

Sipourchaqueindividu,laprobabilitédesuccèsestπ, alors,lenombreYdesuccèsparminindividus indépendantssuituneloibinomialeB(n,π).Ainsi: E[Y]=nπ;Var[Y]=nπ(1−π) E ˆπ=Y n =1 nE[Y]=π;Var[ˆπ]=1 n2Var[Y]=π(1−π) n. Unintervalledeconfiance(danslecadred’applicationde l’approximationdelaloibinomialeparuneloinormale)à 95%pourπestdonnépar: ˆπ±1.96r ˆπ(1−ˆπ) n. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Dansnotreexempleonsouhaiteraitcomparerles probabilitésπ1etπ2dedévelopperunetumeursouset sansexpositionàlafuméedecigarettesetdéterminersi ellessontsignificativementdifférentes.Celareviendraità déterminers’ilexisteunlienentreledéveloppementdela tumeuretlefacteurrisqueconsidéré. Onpeutdéjàrépondreàcettequestionenconstruisantun intervalledeconfianceà95%pourπ1−π2. (ˆπ1−ˆπ2)±1.96s ˆπ1(1−ˆπ1) n1+ˆπ2(1−ˆπ2) n2. FrédéricetMyriamBertrandLarégressionlogistique

(4)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Exemple Rapportdestes Intervalledeconfiance Exemple 06∈(0.114,0.524) Onendéduitqueladifférenceπ1−π2estsignificativement écartéede0auseuilα=5%.Ainsionsaitnonseulementla fuméedecigarettesauneffetsignificatifsurlenombrede cancerdéveloppésmaisonaquantifiéceteffet. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Dansdessituationspluscomplexes(plusdedeux variablesoudedeuxniveauxdufacteur)l’approche précédenteesttroplourde.Ontravaillealorsavecles côtesdesuccès. SiXestunevariableexplicativeàKniveaux,lemodèle logistiquesupposeque: (Y|X=xk)∼B(nkk) avec logit(πk)=log

πk 1−πk

k=µ+αk;(α1=0) ⇒πk=exp(µ+αk) 1+exp(µ+αk). FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Lelogarithmedelacôtedesuccèssouslepremierniveau dufacteurvautµ. Lelogarithmedurapportdescôtesdusuccèssousles kème et1er niveaudufacteurvautθk−θ1k. Parconséquentunevaleurdeαk>0(<0)indiquequela côtedusuccèsobservéeestplusgrande(petite)sousle kème niveaudufacteurquesousle1er niveaudufacteur. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Estimationdesαk Onestimelesαkàl’aided’uneméthodestatistique appeléeméthodedumaximumdevraisemblance. Danscecas,onsaitqu’asymptotiquement(lorsquelataille del’échantillontendversl’infini)lesestimateursdesαk suiventuneloinormaledeparamètresµetσ2 à déterminer. Deplus,cesestimateurssontsansbiais. Parconséquentunintervalledeconfianceà95%approximatif pourlesαkestdonnépar: ˆαk±1.96×σ(ˆαk). FrédéricetMyriamBertrandLarégressionlogistique

(5)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance

Les différents modèles possib les sont :

Modèle1aveceffettraitement: logit(πk)=θk=µ+αk. Modèle2sanseffettraitement(α2=0ci-dessus): logit(πk)=θk=µ. FrédéricetMyriamBertrandLarégressionlogistique

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Oncomparealorslaprobabilitédesuccèsestiméedansle groupek,notée˜πketlaproportiondesuccèsobservéenotée ˆπk. Définition LadévianceDestalorsdéfinieainsi: D=−2X k

yklog

˜πk ˆπk

+(nk−yk)log

1−˜πk 1−ˆπk

=−2(l(˜πk)−l(ˆπk)). Cettequantitéestàrapprocherdelasommedescarrésà minimiserdanslarégressionlinéairesimpleoumultiple.Elle évalueglobalementlaqualitédel’ajustementobtenu. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Ledeuxièmemodèlenefaitpasintervenirdevariable explicative.Ilpeutserviràtesterlanullitédetouteslespentes: l’équivalentdutestdeFisherglobaldanslecadredela régressionlogistique. OncalculelastatistiqueG2 =D2−D1=−2(l2−l1)comparant ladéviancedesdeuxmodèles. Définition Sousl’hypothèsenulleH0quelesrestrictionsimpliquéesparle modèle2aumodèle1sontcorrectes, GH0 ∼χ2 ddl2ddl1. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Exemple Sousl’hypothèsenulle H02=0 ona G2=7.635,ddl1=0,ddl2=1,etp=0.006. Cequipermetdedéciderqueα2estsignificativementdifférent de0auniveauα=5%.Onobtientégalementlesinformations suivantes:ˆµ=0.38etˆα2=1.97.Cecipermetdecalculerles probabilitésdesuccès:0.59et0.91.Lerapportdescôtesdu groupeexposécontrelegroupedecontrôleestestimépar exp(ˆα2)=7.24soitunecôtedesuccèsplusde7foisplus grandepourlegroupedestraités. FrédéricetMyriamBertrandLarégressionlogistique

(6)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Onpeutconstruireunintervalledeconfiance(approximatif) (1−α)·100%pourlelogarithmedurapportdecôtes(abrégé enLRC)dugroupekcontrelegroupederéférenceαkavec ˆαk±1.96×σ(ˆαk). Exemple Dansnotreexemple,onobtient:α2∈(0.36;3,58)confirmant lerejetdel’hypothèsenulleH0(avecα=5%)etl’augmentation significativededévelopperuncancerdupoumonaprès expositionàlafuméedecigarettes.L’intervalledeconfiance approximatifpourlerapportdecôteestalorségalà (1.43,36.0). FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Exemple Voiciunsecondexemplequel’onvatraiteravecMinitab. Relationentreleshabitudestabagiquesd’étudiantsenArizona etleshabitudesdeleursparents(Agresti,1990,p.124). NombredeEnfantEnfant parentsfumeursfumeurnonfumeurTotal Deux40013801780 Unseul41618232239 Aucun18811681358 FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Définitions Lesmodèles Déviance Ondéfinitlesuccèscommeétantlefaitdefumerpourl’enfant, lemodèlelogistiqueprécédentdevient: logit(πk)=θk=µ+αk;(α1=0). Lacatégoriederéférenceestpardéfaut“Aucun”.Onutilise Minitabpourmeneràbienl’analyse.Onpeuttesterl’hypothèse null H023=0 encomparantladéviancedecemodèleaveccelledu précedent.G2 obs=38.37d’oùunep-valeurde0.000. Conclusiondutest:Associationsignificativeauniveau α=5%entrehabitudestabagiquesdesparentsetdesenfants. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Exemple Effetdelacypermethrineàdifférentesdoses(enµg)surla surviedeparasites.Pourchaqueniveaudedose,20parasites sontexposés.Lasurvieéventuelledel’animalestévaluée après72heures.Lesanimauxpeuventêtredistinguésparleur sexe(Collett,1991,CRC,P.75). DoseNmortsDoseNmorts MâleFemelle 1110 2422 4946 813810 16181612 32203216 FrédéricetMyriamBertrandLarégressionlogistique

(7)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

V ariab le e xplicative contin ue

Ignoronslesexedel’animalenpremierlieu. Question:Existe-t-ilunlienentrelamortd’unelarveetla dosereçue?Siouiquelleestlanaturedecetterelation? FrédéricetMyriamBertrandLarégressionlogistique

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Oncherchedoncàdéterminercommentlaprobabilitéde succèsπchangeavecuneouplusieursvariables explicativescontinuesàpartirdesobservationsdeyi succèsenniexpériencesindépendantessousdesvaleurs deXobservéeségalesàxi,(i=1,...,I). Onsouhaiteutiliserunemodélisationdelacôtedesuccès sachantqueX=x,c’est-à-dire: (Y|X=xi)∼B(nii) logit(πi)=θii(xi). FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Pouravoirunepremièreidéedelarelationentrelacôtede succèsetX,onexaminelelogarithmedelacôteempirique contrexi: ˜θi=log

yi+0.5 ni−yi+0.5

. Ons’aperçoitqu’unetransformationlogarithmiqueseraitla bienvenue. FrédéricetMyriamBertrandLarégressionlogistique

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Lemodèlesuggéréestdonc: (Y|X=xi)∼B(nii) avec logit(πi)=θi01xi où xi=log(dosei). FrédéricetMyriamBertrandLarégressionlogistique

(8)

Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes

Régression logistique : v ariab les e xplicatives mixtes

Dansl’exempleprécédent,onaignorél’influence potentielledusexesurlaprobabilitédesuccès.L’analyse précédenteindiquequeladoseinfluedemanière significativesurlaprobabilitéqu’unelarvemeurt. Considéronslecassimpleoùonaàlafoisunevariable continueXetunevariablequalitativeZ.Lesdonnéessont doncdutype(yki,nki,xki,zki).Lemodèlesuggéréest donc: (Y|X=xki,Z=zki)∼B(nkiki) avec logit(πki)=θki. FrédéricetMyriamBertrandLarégressionlogistique Introduction Régressionlogistique:variableexplicativequalitative Régressionlogistique:variableexplicativecontinue Régressionlogistique:variablesexplicativesmixtes Nousavonsdonc5modèlesànotredisposition: X+Z+X*Z,(α0k)+(β1k)xki. X+Z,(α0k)+β1xki. X,α01xki. Z,α0k. 1,α0. Resteàdétecterlesmodèlesconvenablesàl’aidedutestdu G2 .Pourcela,onutiliseMinitabetlefichierdedonnées disponiblesurlesite. FrédéricetMyriamBertrandLarégressionlogistique

Références

Documents relatifs

Actualisation triennale des seuils de la franchise en base de TVA, du rég..... Actualisation triennale des seuils de la franchise en base de TVA,

o Technologie de la maîtrise des flux physiques par les flux d’information dans les meilleures conditions de coûts, de qualité, de délais et de service associées

D'après ces définitions qui sont différentes mais complémentaires, nous pouvons confirmer que la logistique est l'une des fonctions de l'entreprise, qui recouvre toujours les

Pour autant, elle n’est plus cet im- pensé urbain qu’elle pouvait être encore dans les années 1990, les nécessités organiques de la ville imposant la prise en compte des

Il constitue une étape essentielle dans la construction d’une relation étroite et durable avec l’Asie du Sud-Est, qui compte plus de 600 millions d’habitants et où sont

pour un week-end ouvert à tou.te.s (militant.e.s, ancien.ne.s stagiaire.s, permanent.e.s, stagiaire.s, …). autour du

Envie de construire une démarche pour faire réfléchir un public un public autour des questions de genre...On réfléchir et on la teste entre nous. Des temps

418 691-2010 Infrastructures et finances municipales Sous-ministre adjoint. Jocelyn Savoie