• Aucun résultat trouvé

« Cours Statistique et logiciel R »

N/A
N/A
Protected

Academic year: 2022

Partager "« Cours Statistique et logiciel R »"

Copied!
14
0
0

Texte intégral

(1)

Introduction Le modèle

« Cours Statistique et logiciel R »

Rémy Drouilhet(1), Adeline Leclercq-Samson(1), Frédérique Letué(1), Laurence Viry(2)

(1)Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique,

(2)Laboratoire Jean Kuntzmann, Dép. Modele et Algorithmes Déterministes

du 24 février au 7 avril 205

(2)

Introduction Le modèle

Plan de la présentation

1 Introduction

2 Le modèle

Modèle logistique

Odds-Ratio et régression logistique Odds-Ratio Ajusté

du 24 février au 7 avril 205 Formation doctorale

(3)

Introduction Le modèle

Introduction

Larégression logistiquepermet de relier une variable qualitative(souventbinaire) à des variables X1,· · ·,Xp

Exemples

En épidémiologie, survenue d’une maladie à un groupe defacteurs de risque, avec des poids spécifiques pour chaque facteur de risque En fiabilité : survenu d’un accident sur une ligne de production

(4)

Introduction Le modèle

Exemple

Le but est d’expliquer une pathologie coronarienne par la présence de deux facteurs de risque bien connus :

la consommation de tabac la cholestérolémie.

Chaque patient est représenté par 3 variables. La variablepathologie coronarienne est binaire (1 pour oui, 0 pour non), la variabletabagisme et la variablecholestérolémie.

du 24 février au 7 avril 205 Formation doctorale

(5)

Introduction Le modèle

Idée basique

Une première idée est de modéliser la probabilité d’être atteint d’une coronopathie par unerégression linéaireavec une équation du type :

P(coronopathie=1) =a0+a1×tabac+a2×cholesterol Mais ce modèle peut conduire à des probabilités prédites négatives ou supérieures à 1.

(6)

Introduction Le modèle

La fonction logit

On définit la fonctionlogit sur l’intervalle[0,1] par la relation

logit(p) =log p

1−p

0.0 0.2 0.4 0.6 0.8 1.0

6420246

p

log(p/(1 p))

du 24 février au 7 avril 205 Formation doctorale

(7)

Introduction Le modèle

Modèle logistique

Odds-Ratio et régression logistique Odds-Ratio Ajusté

Le modèle

On note

Yi la variable qui vaut 1 si le patienti est atteint de la maladie et 0 sinon

pi =P(Yi =1)la probabilité du patienti d’ être atteint d’une maladie

X1,· · ·,Xp des facteurs de risque,

Régression logistique

Le modèlelogistiqueou logitcorrespond à la relation :

logit(pi) =a0+a1X1,i+a2X2,i+· · ·+apXp,i

(8)

Introduction Le modèle

Modèle logistique

Odds-Ratio et régression logistique Odds-Ratio Ajusté

Exemple

log pi

1−pi

=logit(pi) =a0+a1×tabac+a2×cholesterol oùYi désigne la présence d’une coronopathie pour le patient i.

du 24 février au 7 avril 205 Formation doctorale

(9)

Introduction Le modèle

Modèle logistique

Odds-Ratio et régression logistique Odds-Ratio Ajusté

Estimation des paramètres

L’estimation des paramètres du modèle de régression logistique se fait par la méthode du maximum de vraisemblance.

On maximise la vraisemblance par rapport aux paramètres

a0,a1,· · · ,ap au moyen d’un algorithme numérique (par exemple, la méthode du gradient).

Dans certains cas, l’algorithme ne peut proposer une estimation stable des paramètres.

En pratique, il faut s’assurer que la procédure numérique a convergé vers des valeurs stables des paramètres.

(10)

Introduction Le modèle

Modèle logistique

Odds-Ratio et régression logistique Odds-Ratio Ajusté

Tests de significativité des paramètres

Pour tester la significativité d’un coefficientH0:ap=0 on utilise un test de Wald. SousH0,

ˆap

qVˆ(ˆap)

∼χ2(1)

Uneabsence d’associationentre la variable binaireY et la variableXp se traduit par l’hypothèseH0:ap=0.

du 24 février au 7 avril 205 Formation doctorale

(11)

Introduction Le modèle

Modèle logistique

Odds-Ratio et régression logistique Odds-Ratio Ajusté

Odds-Ratio

Exemple

variable Y qui vaut 1 si le patient est malade et 0 s’il est sain variable Sexecodée par 0 pour les femmes et 1 pour les hommes Tableau de contingence

Sexe 0 1

Maladie

1 p0 p1

0 1−p0 1−p1

L’Odds-Ratio permet de mesurer l’associationentredeux variables binaires.

OR = 1−p p 1 / 1−p p 0

(12)

Introduction Le modèle

Modèle logistique

Odds-Ratio et régression logistique Odds-Ratio Ajusté

Odds-Ratio et régression logistique

Le modèle de régression logistique est très utilisé à cause de son lien avec l’Odds-Ratio.

Dans le modèlelogit[P(Y =1|Sexe)] =a0+a1Sexe, on a

OR = exp(a

1

)

Interprétation: SiOR=1, dans notre exemple, la probabilité d’être malade est la même chez les Hommes que chez les Femmes, donc le risque de maladie n’est pas associé à la variableSexe.

du 24 février au 7 avril 205 Formation doctorale

(13)

Introduction Le modèle

Modèle logistique

Odds-Ratio et régression logistique Odds-Ratio Ajusté

Odds-Ratio Ajusté

Calculer un Odds-Ratio entre les variables binairesY etX1 en tenant compte des variables(Xj,2≤j≤p)

Estimer un modèle

logit[P(Y =1|X1,X2,· · · ,Xp)] =a0+a1X1+a2X2+· · ·+apXp

Calculer l’Odds-Ratio ajusté:

OR

(Xj,2≤j≤p)

= exp(a

1

)

(14)

Introduction Le modèle

Modèle logistique

Odds-Ratio et régression logistique Odds-Ratio Ajusté

Avec R

data=read.table("usi.txt", header=TRUE)

res=glm(DECEDE∼SEXE, data=data, family = "binomial") summary(res)

resC=glm(DECEDE∼AGE+SERV+INF_J0+TAS+SEXE+FC+TYP_AD+PH+BICAR +CONSC+GLASGOW, data=data, family = "binomial")

summary(resC) step(resC)

resF=glm(DECEDE∼AGE+TAS+TYP_AD+PH+CONSC, data=data, family

= "binomial") summary(resF)

boxplot(resF$residuals∼data$TYP_AD); abline(h=0)

du 24 février au 7 avril 205 Formation doctorale

Références

Documents relatifs

Influence of histological type, smoking history and chemotherapy on survival after first-line therapy in patients with advanced non-small cell lung cancer. EGFR Mutations in Lung

L’objectif de cette revue systématique a été de synthétiser la littérature existante sur le lien entre l'affectivité négative et le craving dans les troubles liés à l’usage

Erreurs de première et deuxième espèces Test d’adéquation à une valeur Test d’un probabilité Test de

histogramme des résidus, QQ plot (quantiles empiriques des résidus e i (ou normalisés) en fonction des quantiles de la gaussienne) graphiques partiels : tracé des p nuage de points (x

Dans le modèle multiplicatif, l’amplitude de la composante saisonnière et du bruit n’est plus constante au cours du temps : elles varient au cours du temps proportionnellement à

HOUEHANOU SONOU Yessito Corine N | Thèse de doctorat Épidémiologie | Université de Limoges | 2015 32 L’insuffisance cardiaque peut être définie comme une anomalie

Ce projet s’inscrit dans le cadre du projet GEOCAP 72 qui vise à chercher des corrélations entre les cancers pédiatriques et des expositions résidentielles à des facteurs de

Risquer se trouve ainsi avoir pour synonyme tenter, entreprendre, marquant ainsi la distinction qui va s’opérer, dans le développement du capitalisme, entre le