Modélisation statistique du comportement des barrages : cas Beni Haroun

(1)

République Algérienne Démocratique et Populaire Ministère de l’enseignement Supérieur et de la Recherche Scientifique

Université Mohammed Seddik Ben Yahia - Jijel Faculté des Sciences Exactes et Informatique

Département des Mathématiques

№ d’ordre :...

№ de série :...

Mémoire de fin d’études pour l’obtention du diplôme de

Master

Filière : Mathématiques

Spécialité : Probabilités et statistique

Thème

Modélisation statistique du comportement des barrages : cas Beni Haroun

Présenté par :

BOURIDANE Abdennour BELAFRITES Aissam

Sous la direction de :

Dr.LAOUDJ Farida (Maîtresse de conférence A) Devant le jury :

Présidente : Mme. YAKOUBI Fatima (MAA université de jijel).

Examinatrice : Mme. DJERIDI Zohra (MAA université de jijel).

Examinatrice : Mme. GHOUIL Djoweyda (MAA université de jijel).

Promotion 2017/2018

(2)

Table des matières

Introduction générale 9

I Cadre théorique du modèle linéaire multiple et du modèle

logistique 11

Introduction 12

1 Cadre théorique de la régression linéaire multiple 13

1.1 Spécification du modèle linéaire multiple . . . 13

1.1.1 Écriture simple du modèle . . . 13

1.1.2 Écriture matricielle du modèle . . . 14

1.1.3 Hypothèses du modèle linéaire . . . 15

1.2 Estimation des paramètres du modèle . . . 15

1.2.1 Estimation par la méthode des moindres carrés ordinaires MCO . . 15

1.2.2 Propriétés de l’estimateur MCO . . . 16

1.3 Sélection du modèle final . . . 17

1.3.1 Méthode Pas à Pas Descendante . . . 18

1.3.2 Méthode Pas à Pas Ascendante . . . 22

2

(3)

Table des matières 3

1.4 Adéquation du modèle final . . . 22

1.4.1 Indépendance des erreurs aléatoires . . . 22

1.4.2 Normalité des erreurs aléatoires . . . 23

1.4.3 Homoscédasticité . . . 23

1.5 Problème de la multi-colinéarité . . . 23

1.5.1 Qu’est ce qu’une multi-colinéarité ? . . . 23

1.5.2 Détection du problème . . . 24

1.5.3 Comment traiter un problème de multicolinéarité ? . . . 26

2 Cadre théorique de la régression logistique 27 2.1 Spécification du modèle logistique . . . 27

2.1.1 Hypothèses du modèle logistique . . . 28

2.1.2 Interprétation des paramètres . . . 28

2.2 Estimation des paramètres du modèle logistique . . . 33

2.2.1 Algorithme de Newton-Raphson . . . 37

2.3 Sélection du modèle final . . . 39

2.3.1 Méthode Pas à Pas Descendante . . . 39

2.3.2 Signification statistique des paramètres . . . 40

2.4 Adéquation du modèle logistique . . . 41

2.4.1 Analyse des résidus . . . 41

2.4.2 Classement des individus statistiques . . . 41

2.4.3 Sensibilité et spécificité . . . 42

2.4.4 Valeurs prédictives . . . 43

(4)

Table des matières 4

2.4.5 Courbe de ROC (Receiver Operating Characteristic) . . . 43

Synthèse de la première partie 46 II Application du modèle linéaire multiple et du modèle logistique 47 Introduction de la partie 48 3 Modélisation de comportement du barrage de Beni Haroun 49 3.1 Brève présentation du barrage de Beni-Haroun . . . 49

3.2 Modélisation de comportement du barrage par le modèle linéaire multiple . 50 3.2.1 Objectif . . . 50

3.2.2 Données statistiques utilisées . . . 51

3.2.3 Description statistique des différentes variables . . . 54

3.2.4 Présentation du modèle . . . 59

3.2.5 Sélection des variables incluses dans le modèle . . . 59

3.2.6 Adéquation du modèle final . . . 65

3.3 Modélisation de comportement du barrage par le modèle logistique . . . . 67

3.3.1 Objectif . . . 67

3.3.2 Présentation du modèle de régression logistique . . . 69

3.3.3 Estimation des paramètres et intervalles de confiance . . . 70

3.3.4 Interprétation des résultats . . . 72

3.3.5 Adéquation du modèle final . . . 74

Synthèse de la partie 77

(5)

Table des matières 5

Conclusion générale 78

Perspectives 79

Résumé 80

biblioghraphie 80

(6)

Table des figures

2.1 P

_β

(Y = 1|X = x) pour différentes valeurs de β . . . 29

2.2 Régression linéaire pour données qualitatives, avec K=1 . . . 34

2.3 Courbe ROC obtenues lorsque AUC=0.5 . . . 44

2.4 Courbe ROC obtenues lorsque AUC=1 . . . 45

2.5 Courbe ROC obtenues lorsque AUC est entre 0.5 et 1 . . . 45

3.1 Vue générale au barrage de Beni Haroun. . . 50

3.2 schéma qui illustre le phénomène étudié . . . 51

3.3 Les pendules direct et inverse. . . 52

3.4 Le placement de pendule PD3.175 R sur la digue du barrage. . . 52

3.5 Le placement de pcv-1 sur la fondation du barrage. . . 53

3.6 Nuage des points entre les différentes variables explicatives et la variable quantitative à expliquer (Pend). . . 56

3.7 X

₂

facteur de confusion. . . 58

3.8 Le déplacement de pendule lorsque la côte augmente de quatre mètres. . . 62

3.9 Le déplacement de pendule lorsque la Côte augmente de cinq mètres. . . . 63

3.10 Le déplacement du pendule lorsque le niveau piézométrique augmente d’un mètre. . . 64

6

(7)

Table des figures 7

3.11 Le déplacement du pendule lorsque la température augmente de 7 degrés. . 65 3.12 Résidus vs prédictions (à gauche) et Q-Q (à droite) . . . 66 3.13 Résidus en fonction des observations ’Pend’. . . 66 3.14 Présentation des valeurs observations et les prédictions. . . 67 3.15 Évolution des probabilités prédites entre le 15 janvier 2008 et le 18 janvier

2018 . . . 74

3.16 La courbe ROC du modèle final . . . 76

(8)

Liste des tableaux

2.1 Classement des individus statistiques : confusion prédictions et observations 42

3.1 Extrait des données pour les différents variables. . . 54

3.2 Résumé statistique de tableau des données. . . 55

3.3 Matrice des corrélations entre les variables prise 2 × 2. . . 57

3.4 Matrice des coefficients corrélations partiels entre les variables 2 × 2. . . 58

3.5 Estimation et signification statistique des paramètres du modèle. . . 60

3.6 Estimation et test de nullité des paramètres du modèle. . . 60

3.7 Détection de multicolinéarité par le critère de VIF. . . 61

3.8 Comparaison des différents modèles par l’AIC et le BIC. . . 61

3.9 Extrait de la base des données utilisée pour le modèle logistique. . . 69

3.10 Estimation des paramètres du modèle complet. . . 70

3.11 Intervalles de confiance et Odds ratio . . . 71

3.12 Estimation des paramètres du modèle sans la variable âge. . . 71

3.13 Intervalles de confiance des paramètres et Odds ratio . . . 72

3.14 Classement des observations par le modèle logit au seuil 0.5 . . . 75

8

(9)

Introduction générale

La surveillance des barrages est primordiale puisque la rupture de ces ouvrages est sus- ceptible d’entraîner des conséquences économiques et humaines dramatiques. Le contrôle de la sécurité consiste à détecter et à maîtriser les mécanismes de dégradation pouvant entraîner la rupture de l’ouvrage si aucune action n’est entreprise (maintenance, vidange d’urgence . . . etc). La surveillance se fait par plusieurs outils dont "les pendules".

Nous avons réalisé un stage de courte durée au sein de la direction du barrage de Beni Haroun ; avec une objectif d’analyser le comportement du barrage. Ce comportement se traduit par le déplacement des pendules par rapport à une valeur prise initialement. Le barrage est équipé de 40 pendules de types différents (inverse et direct) qui sont placés sur la digue aux différents endroits. Dans notre étude, on s’intéresse uniquement à un seul pendule qui est ’ PD3.175 R ’. Ce choix est justifié par le fait qu’il est placé dans une endroit sensible.

On cherche, dans un premier temps, à expliquer le mouvement de la digue du barrage qui est exprimé par la différence entre la valeur observée à l’instant t et la valeur initiale prise le 01 septembre 2003 (date de la mise en service du barrage). On cherche, plus précisément, à mesurer l’effet des facteurs explicatifs sur le déplacement du pendule de sa position initiale. Le modèle statistique qui permet de répondre à cet objectif est le modèle linéaire multiple.

Dans un second temps, on s’interroge sur la probabilité de survenue d’un mouvement

"important" du barrage. Le modèle statistique qui permet de l’estimer, en prenant en compte plusieurs facteurs explicatifs, est le modèle logistique.

Par conséquent, ce présent mémoire s’organise en deux parties :

9

(10)

Introduction générale 10

- la première est intitulée ’Cadre théorique du modèle linéaire multiple et du modèle logistique’. Elle a pour but de présenter la démarche statistique de la modélisation linéaire et logistique.

- La seconde partie est intitulée ’ Application du modèle linéaire multiple et du modèle

logistique’. Elle vise à étudier le comportement du barrage de Beni Haroun en modélisant,

d’une part, le déplacement du pendule ’ PD3.175 R ’ de sa position initiale, et d’autre

part, la probabilité de survenue d’un mouvement relativement "important" de la digue

du barrage, en fonction de certains facteurs potentiellement explicatifs.

(11)

Première partie

Cadre théorique du modèle linéaire multiple et du modèle logistique

11

(12)

Introduction

Les modèles de régression sont très utiles dans les situations où l’on souhaite étudier la relation entre une variables d’intérêt Y et plusieurs variables potentiellement explicatives X

₁

, X

₂

,..., X

_p

. Le choix du modèle dépend seulement de la nature de la variable à expliquer Y et de l’objectif que l’on souhaite atteindre.

Si l’objectif est d’expliquer ou de prédire la variable dépendante Y (variable quantitative), le modèle utilisé est le modèle de régression linéaire multiple. Si, en revanche, Y est qualitative et l’objectif est d’étudier la probabilité de survenue d’un évènement (Y=1), le modèle adéquat est le modèle de régression logistique. Pour ces deux modèles, la démarche statistique est la même :

- Spécification du modèle.

- Estimation des paramètres du modèle.

- Sélection du modèle final et tests d’hypothèses sur les paramètres du modèle.

- Adéquation du modèle.

12

(13)

Chapitre 1

Cadre théorique de la régression linéaire multiple

Le modèle linéaire est le modèle de base que l’on utilise pour analyser une expérience où l’on étudie sur n individus statistiques (ou unités statistiques) les variations d’une variable réponse quantitative Y en fonction des facteurs explicatifs X. Dans ce chapitre, on a réalisé une synthèse des différentes façons dont le modèle linéaire est présentés dans les ouvrages documentés (voir bibliographie).

1.1 Spécification du modèle linéaire multiple

1.1.1 Écriture simple du modèle

Nous supposons que la variable à expliquer Y est une variable aléatoire et p variables potentiellement explicatives X=( X

₁

, X

₂

, ..., X

_P

) sont non aléatoires ; qui peuvent être qualitatives ou quantitatives.

Définition 1.1. [13] Un modèle de régression linéaire multiple est de la forme suivante :

Y

_i

= β

₀

+ X

_i1

β

₁

+ ... + X

_ip

β

_p

+ ε

_i

= β

₀

+

p

X

j=1

β

_j

X

_ij

+ ε

_i

, ∀i = 1, ..., n (1.1)

Où les ε

_i

sont les variables aléatoires indépendantes distribuées selon une loi normale

13

(14)

1.1. Spécification du modèle linéaire multiple 14

de moyenne nulle et de variance σ

²

.

Y

_i

: variable à expliquer observée sur le ième individu statistique et elle est supposée aléatoire.

X

_ij

: la jème variable explicative observée sur le ième individu statistique et elle est non aléatoire.

ε

_i

représente l’erreur aléatoire du modèle.

β

₀

la constante du modèle. C’est l’espérance mathématique de Y/X lorsque X=0.

β

_j

le coefficient de la jème variable explicative X

_j

. Ce coefficient s’interprète comme l’effet marginal d’une unité supplémentaire de X sur la variable Y . Elle correspond à la variation de β

_j

unités de Y induite par la variation d’une unité de X, toutes choses égales par ailleurs.

1.1.2 Écriture matricielle du modèle

On peut écrire le modèle précédent sous une forme matricielle :

Y = Xβ + ε (1.2)

avec :

Y =





 y

₁

y

₂

.. . y

n







n×1

X =







1 x

₁₁

x

₁₂

... x

_1p

1 x

₂₁

x

₂₂

... x

_2p

. . . .

1 x

n1

x

n2

... x

np







n×(p+1)

β =





 β

₀

β

₁

.. . β

p







(p+1)×1

et ε =





 ε

₁

ε

₂

.. . ε

n







n×1

où Y est le vecteur aléatoire de taille ( n, 1 ), contient les n variables aléatoires à expliquer.

X est la matrice non aléatoire de p variables explicatives, de taille ( n, (p + 1) ).

β est le vecteur de taille ( (p + 1), 1 ) contient les p coefficients (ou paramètres) inconnus

associés aux p variables explicatives.

(15)

1.2. Estimation des paramètres du modèle 15

ε est le vecteur aléatoire de taille ( n, 1 ) des n erreurs aléatoires du modèle.Il suit la loi normale multivariée d’espérance nulle et de matrice variance-covariance σ

²

I

n

( I

n

étant la matrice identité de taille n).

1.1.3 Hypothèses du modèle linéaire

Les hypothèses traditionnelles du modèle (voir annexe 1) peuvent être expliciter en spécifiant les propriétés de la distribution des variables Y

_i

conditionnellement à X

_i

:

- Linéarité E(Y

_i

/X

_i

) = β

₀

+ X

_i1

β

₁

+ ... + X

_ip

β

_p

, ∀i = 1, ..., n car E[ ε

_i

]=0.

- Homoscédasticité : hypothèse d’égalité des variances. V (Y

_i

/X

_i

) = σ

²

∀i = 1, ..., n car V( ε

_i

)= σ

²

- Normalité : La distribution conditionnelle de Y

_i

sachant X

_i

est gaussienne de para- mètres : (β

₀

+ X

_i1

β

₁

+ ... + X

_ip

β

_p

, σ

²

)

- Indépendance : Conditionnellement à X

_i

, la variable Y

_i

/ X

_i

est indépendante de Y

_i⁰

/ X

_i⁰

pour tout ∀i 6= i

⁰

.

1.2 Estimation des paramètres du modèle

1.2.1 Estimation par la méthode des moindres carrés ordinaires MCO

La méthode d’estimation des paramètres du modèle est la méthode des moindres carrés ordinaire MCO. Il s’agit de minimiser la somme des carrés des résidus ε = Y − Xβ . Sous forme matricielle, on cherche à minimiser S(β) :

S(β) = (Y − Xβ)

⁰

(Y − Xβ)

= Y

⁰

Y + β

⁰

X

⁰

Xβ − Y

⁰

Xβ − β

⁰

X

⁰

Y

= Y

⁰

Y + β

⁰

X

⁰

Xβ − 2β

⁰

X

⁰

Y

(16)

1.2. Estimation des paramètres du modèle 16

où ; la matrice (X’X) est symétrique définie positive. La condition nécessaire d’opti- mum est que la dérivée première par rapport à β s’annule :

∂S(β)

∂β = −2X

⁰

Y + 2X

⁰

X β ˆ = 0 ce qui revient à résoudre l’équation :

(X

⁰

X) ˆ β = X

⁰

Y

Si la matrice (X’X) est inversible, alors l’équation précédente possède une solution qui est :

β ˆ = (X

⁰

X)

⁻¹

X

⁰

Y

La condition nécessaire pour que (X’X) soit inversible est qu’il ait plus d’observations que de paramètres à estimer dans le modèle.

Pour s’assurer que ce point β ˆ est bien un minimum strict, il faut que la dérivée seconde soit une matrice définie positive, or la dérivée seconde s’écrit :

^∂²_∂β^S(β)2

= 2X

⁰

X , et X est de plein rang donc X’X est inversible et n’a pas de valeur propre nulle, la matrice X’X est donc définie. De plus ∀z ∈ R

^p

nous avons :

z

⁰

2X

⁰

Xz = 2 hzX, Xzi = kXzk

²

≥ 0 (X’X) est donc bien définie positive et β ˆ est bien un minimum strict.

1.2.2 Propriétés de l’estimateur MCO

Proposition 1.1. [8] L’estimateur β ˆ des moindres carrés ordinaires est sans biais E( β)=β ˆ

(17)

1.3. Sélection du modèle final 17

Démonstration.

E( ˆ β) = E((X

⁰

X)

⁻¹

X

⁰

Y )

= (X

⁰

X)

⁻¹

X

⁰

E(Y )

= (X

⁰

X)

⁻¹

X

⁰

E(Xβ + ε)

= (X

⁰

X)

⁻¹

(X

⁰

X)β + (X

⁰

X)

⁻¹

X

⁰

E(ε)

= (X

⁰

X)

⁻¹

X

⁰

Xβ

= β

car E( ε ) =0.

Proposition 1.2. [8] La matrice variance-covariance des estimateurs β ˆ des moindres carrés est égale à Var( β)=σ ˆ

²

(X

⁰

X)

⁻¹

Démonstration. V( β ˆ )=V( (X

⁰

X)

⁻¹

X

⁰

Y )= (X

⁰

X)

⁻¹

X

⁰

V (Y )X(X

⁰

X)

⁻¹

Or V(Y) =V( Xβ + ε )=V( ε )= σ

²

I

_n

On obtient :

V ar( ˆ β) = σ

²

(X

⁰

X)

⁻¹

X

⁰

X(X

⁰

X)

⁻¹

= σ

²

(X

⁰

X)

⁻¹

La variance des résidus σ

²

est estimée par [8] : ˆ

σ

_ε²

= P

n

i=1

(y

i

− y ˆ

i

)

²

n − p − 1

L’estimateur des moindres carrés possède donc des bonnes propriétés. Il est aussi optimal dans la mesure où il est de variance minimale parmi tous les autres estimateurs linéaires sans biais. On dit qu’il est BLUE (Best Linear Unbiased Estimator).

1.3 Sélection du modèle final

A partir des données statistiques, on peut estimer plusieurs modèles pour ajuster

les données statistiques. Nous devons choisir le meilleur pour ajuster les données d’une

(18)

1.3. Sélection du modèle final 18

façon pertinente. Après avoir estimé les paramètres du modèle, on procède à la sélection du modèle final. Ceci est possible par plusieurs méthodes et les plus utilisées sont les suivantes :

1.3.1 Méthode Pas à Pas Descendante

Le principe de cette méthode est d’estimer, dans un premier temps, le modèle complet qui contient toutes les variables explicatives. Puis, on procède à éliminer les variables explicatives du modèle, une par une, jugées statistiquement non significatives au seuil α (erreur de première espèce). La procédure s’arrête lorsque toutes les variables deviennent statistiquement significatives et différentes de 0 (sauf variables forcées)[2].

Tests statistiques paramétriques

On se base sur le test de Student pour tester la signification de l’effet ( β

_j

) de la variable X

_j

sur Y , toutes choses est égales par ailleurs.

Les hypothèses à tester sont :



 

 

H

₀

: β

_j

= 0 H

₁

: β

_j

6= 0 Avec la statistique de test :

T =

β ˆ

_j

− E( ˆ β

_j

) ˆ σ

βˆj

=

β ˆ

_j

− β

_j

ˆ σ

βˆj

sous H

₀

la statistique du test est :

T = β ˆ

_j

ˆ σ

_β_ˆ

j

T (n − p − 1) seuil α

T suit une loi de Student à (n-p-1) degré de liberté (ddl). Avec n la taille de l’échantillon et p+1 le nombre du paramètres à estimer dans le modèle.

car : E( β ˆ

_j

) = β

_j

Nous rejetons H

₀

si la valeur de la statistique observée est supérieure à la valeur de T

théorique lue dans la table de la loi de student au seuil choisi.

(19)

1.3. Sélection du modèle final 19

On test ensuite le modèle dans sa globalité par le test statistique paramétrique de Fischer :

Les hypothèses du test sont :



 

 

H

₀

: β

₁

= β

₂

= ... = β

_p

= 0 H

₁

: ∃j ∈ [1 : p]; β

_j

6= 0 la statistique du test est :

F = SCE/p

SCR/n − p − 1 F (p, (n − p − 1)) telle que :

SCE = P

n

i=1

(ˆ y

i

− y)

²

: la somme des carrés explicative due à la régression.

SCR = P

n

i=1

(y

_i

− y ˆ

_i

)

²

: somme des carrés des écarts résiduels.

F suit une loi de Fischer à p et (n − p − 1) degrés de liberté.

Nous rejetons H

₀

si la valeur de la statistique observée est supérieure à la valeur de F théorique lue dans la table de la loi de Fischer au seuil (erreur de première espèce) choisi.

Lorsque nous souhaitons comparer deux modèles emboîtés, on les comparent par le test de Fischer aussi, en testant les hypothèses suivantes :



 

 

M odele(M

₁

) : β

₀

+ ... + β

_q

x

_q

M odele(M

₂

) : β

₀

+ β

₁

x

₁

+ ... + β

_q

x

_q

+ ... + β

_p

x

_p

la statistique de test est :

F = R

²

(M

₁

) − R

²

(M

₂

)/q 1 − R

²

(M

₁

)/(n − p − 1)

suit une loi de Fischer à q et (n−p−1) degrés de liberté, avec R

²

(M

_i

) c’est le coefficient de détermination du modèle ’i’.

Pour finir la sélection du modèle final, on consolide le test de signification du modèle

dans sa globalité par d’autres critères.

(20)

1.3. Sélection du modèle final 20

Critères de sélection

Coefficient de détermination

Le coefficient de détermination mesure la qualité des prédictions du modèle linéaire.

Plus sa valeur est élevée mieux est le modèle et vice-versa [3].

sa formule est donnée par :

R

²

= SCE

SCT = 1 − SCR SCT

telle que : SCE = P

n

i=1

(ˆ y

_i

− y)

²

: la somme des carrés explicative due à la régression.

SCR = P

n

i=1

(y

_i

− y ˆ

_i

)

²

: somme des carrés des écarts résiduels. SCT = SCR+ SCE somme des carrés totaux.

Il est exprimé en pourcentage et mesure le pourcentage de variation de Y expliquée par les p variables explicatives. On peut l’interpréter comme le pourcentage de variance expliquée par le modèle dans la variance totale.

Ce coefficient peut être influencé par le nombre de paramètres introduits dans le mo- dèle. Plus ce nombre est important, plus la valeur du coefficient augmente. On risque alors de conclure que le modèle explique bien le phénomène alors qu’il ne l’est pas. D’où le recours au coefficient de détermination ajusté qui prend en compte le nombre de paramètres à estimer du modèle.

Par exemple, si on compare un modèle à p-2 variables à un autre modèle à p variables qui a un R² plus élevé que celui à p-2, cela signifie-t-il que le R² du modèle à p variables est plus élevé parce que ce modèle est vraiment meilleur ? Ou bien est-il plus élevé parce qu’il y a simplement plus paramètres ? Le R

²

ajusté (noté R

²_adj

) [3] permet de répondre à ces questions.

Il est donnée par la formule :

R

²adj

= 1 − n − 1

n − p (1 − R

²

)

(21)

1.3. Sélection du modèle final 21

Critère d’Information d’Akaiké

Le critère d’Information d’Akaiké (en anglais Akaiké information criterion AIC) mesure la qualité d’un modèle statistique proposé par Hirotugu Akaike en 1973. L’AIC permet de pénaliser les modèles en fonction du nombre de paramètres afin de satisfaire le critère de parcimonie [2]. On choisit alors le modèle avec l’AIC le plus faible c’est à dire :

M

AIC

= arg min

M

AIC(M )

Il est meilleur que le coefficient de détermination et se détermine par la formule suivante :

AIC = −2 ln(L) + 2K L : le maximum de la fonction de vraisemblance du modèle.

K : le nombre de paramètres à estimer par le modèle.

Critère d’information bayésien

Le critère d’information bayésien (en anglais bayesian information criterion BIC) est un critère d’information dérivé du AIC , proposé par Gideon Schwarz en 1978. Il cherche à sélectionner le modèle M

_i

qui maximise la probabilité a posteriori P (M

_k

/X ) :

M

_BIC

= arg max

Mk

P (M

_k

/X ) D’après la formule de bayes :

P (M

_k

/X) = P (X/M

_k

)P (M

_k

) P (X)

Avec, les probabilités a priori P (M

_k

) sont supposées égales ∀ k=1,...,K. Mais, aucun modèle n’est privilégié.

P (X/M

_k

) est appelée vraisemblance intégrée pour le modèle M

_k

calculée par l’ap-

proximation de Laplace. Il pénalise les modèles en fonction du nombre de paramètres

mais aussi en fonction de la taille de l’échantillon n .

(22)

1.4. Adéquation du modèle final 22

le critère BIC s’écrit comme suit :

BIC = −2 ln(L) + K ln(n) L : le maximum de la fonction de vraisemblance du modèle.

K : le nombre de paramètres à estimer par le modèle.

n : la taille de l’échantillon.

Le choix du modèle, d’aprés ce critère, correspond à la plus faible valeur de BIC : M

_BIC

= arg min

M

BIC (M)

En comparant les critères AIC et BIC, on peut conclure que le critère BIC sélectionne des modèles de dimensions plus petites que le critère AIC. Ce qui est logique puisque BIC pénalise plus qu’AIC (dès que n>7). On préfère le critère BIC que AIC lorsque la taille de l’échantillon est très grande [5].

1.3.2 Méthode Pas à Pas Ascendante

Le principe de cette méthode est de partir du modèle vide et rajouter variable par variable au modèle. On s’arrête dès qu’aucune des variables encore introduites n’est jugée significative. Son inconvénient est que l’introduction des variables se fait arbitrairement par manque de règle à suivre [2].

1.4 Adéquation du modèle final

La validation du modèle est un processus dans lequel les résidus vérifient les hypothèses suivantes :

1.4.1 Indépendance des erreurs aléatoires

L’indépendance est très difficile à tester de manière formelle. Cette hypothèse est

généralement supposée a priori. Le test de Durbin Watson le plus souvent avancé et plus

(23)

1.5. Problème de la multi-colinéarité 23

souvent utilisé.

1.4.2 Normalité des erreurs aléatoires

Cette hypothèse est peut être vérifiée en comparant la distribution empirique des résidus prédits à la distribution théorique des résidus. Ceci est possible par le graphique des quantile-quantile ou par des tests spécifiques.

1.4.3 Homoscédasticité

La validation d’égalité des variances des résidus se fait via le graphe des résidus.

Pour vérifier que la variance de la variable dépendante est constante, on s’appuie sur le graphique des résidus versus les prédictions :

- Si la variance est constante, les observations se dispersent autour d’une droite horizontale passant par la valeur 0, formant une bande horizontale dans l’intervalle [-2,+2].

-Si le nuage de points forme un entonnoir ouvert vers la droite ceci indique que la variance de la variable dépendante est plus importante pour des grandes valeurs.

-Si le nuage de points forme un entonnoir ouvert vers la gauche ceci indique que la variance de la variable dépendante est plus importante pour des petites valeurs. Dans les deux cas la variance de la variable dépendante n’est pas constante.

1.5 Problème de la multi-colinéarité

1.5.1 Qu’est ce qu’une multi-colinéarité ?

Lors de la modélisation, on peut rencontrer un problème dit ’multi-colinéarité’. On dit que des variables sont multi-colinéaires s’il existe une corrélation linaire parfaite entre certaines variables explicatives. Soient trois variables X

₁

, X

₂

, X

₃

, il existe multicolinéarité si on peut écrire une en fonction de deux autres comme suit :

X

₁

= aX

₂

+ bX

₃

(24)

1.5. Problème de la multi-colinéarité 24

a et b sont constantes réelles.

La présence de multi-colinéarité dans les données, si elle n’est pas traitée correctement, peut être responsable de plusieurs problèmes, à savoir :

- Intervalles de confiance trop larges autour des paramètres estimés par un modèle.

- Aussi, la multi-colinéarité prononcée s’avère problématique, car elle peut augmenter la variance des coefficients de régression et les rendre instables et difficiles à interpréter.

Les conséquences de coefficients instables peuvent être les suivantes :

1. Les coefficients peuvent sembler non significatifs, même lorsqu’une relation significative existe entre la variable explicative Xj et la variable à expliquer Y.

2. Les coefficients des variables explicatives Xj fortement corrélées varieront considé- rablement d’un échantillon à un autre.

3. Lorsque des variables explicatives d’un modèle sont fortement corrélées, la suppres- sion de l’une de ces variables aura une incidence considérable sur les coefficients estimés des autres variables explicatives. Les coefficients des variables explicatives fortement cor- rélées peuvent même présenter le mauvais signe.

La multi-colinéarité peut fausser complètement l’interprétation des coefficients de la régression, il faut donc détecter et le traiter.

1.5.2 Détection du problème

Il y a plusieurs critères pour détecter la multi-colinéarité [15], [16] :

Règle de Klein :

Le principe de ce critère test est basé sur la comparaison du coefficient de détermi- nation R

²

, et sur le coefficient de corrélation partiel r

_X_j_X_k_,X_l

correspondent aux variables explicatives X

_j

et X

_k

à partir du troisième X

_l

tel que :

R

²

: le coefficient de détermination du modèle calculer à partir de p-variables explicatives,

(25)

1.5. Problème de la multi-colinéarité 25

il déjà défini (voir la page 20), et le coefficient de corrélation partiel est donnée par : r

_X₁_X₂_,X₃

= r

_X₁_X₂

− r

_X₁_X₃

.r

_X₂_X₃

p 1 − r

²_X₁_X₃

p

1 − r

²_X₂_X₃

(1.3)

avec, r ∈ [−1, 1] .

-Si le coefficient de détermination est supérieur à chaque coefficient de corrélation partiel, on peut conclure qu’il y a pas de multi-colinéarité, et on peut l’écrire :

-Il existe au moins deux variables X

_ij

et X

_ik

à partir du troisième X

_il

tell que : r

XjX_k,X_l

> R

²

, dans ce cas on dit qu’il y a un problème de multi-colinéarité entre les variable du modèle.

Critère de tolérance

La tolérance est le complément du coefficient de détermination à 1 (1 − R

²

) . Elle est utilisé dans plusieurs méthodes comme un critère de filtrage des variables.

-Si la tolérance est très faible donc il y a une multi-colinéarité forte,

-Si la tolérance vaut la valeur "1", on dit que l’absence totale de la multi-colinéarité.

Critère de Variance Inflation Factors

Le (VIF) est défini par :

V IF (X

_j

) = 1

1 − R

_j²

(1.4)

où, (1 − R

_j²

) est la tolérance, le R

_j²

est le coefficient de détermination de la régression correspondant à lA j ème variable explicative.

Le coefficient R

_j²

étant toujours strictement inférieur à 1 lorsque X est de plein rang. On conclut généralement à un problème de multicolinéarité pour X

_j

si V IF (X

_j

) > 5 , ou de manière équivalente si R

_j²

> 0.8 .

Si par exemple la tolérance=0.1, et par conséquent V IF = 10 , il y a donc un problème

sérieux probablement que les corrélations entre 2 variables explicatives est élevée.

(26)

1.5. Problème de la multi-colinéarité 26

1.5.3 Comment traiter un problème de multicolinéarité ?

Pour remédier au problème de multi-colinéarité, comme les variables fournissant des informations redondantes, leur retrait ne réduit souvent pas radicalement le R

²

.

-Si vous ajustez des valeurs polynomiales, soustrayez la moyenne des valeurs de la variables explicative.

-Utiliser la méthode de l’ACP (Analyse des Composant Principale : C

_i

), le faire d’une ACP des variables explicatives retenir quelques composantes principales et refaire un nouveau modèle avec ces composantes au lieu de travaille avec X

_i

, on travailler avec C

_i

, c’est une méthode rapide, efficace et optimale pour un critère de minimisation des covariances bien maîtrisé.

Son utilisation est recommandée dans le cas où un grand nombre des variables explicatives est utilisé, ou lorsqu’il y a de forte colinéarité entre les variables.

Le principe de cette méthode est de créer à partir d’un tableau de n observation décrit par p-variables, un ensemble de h composantes (h < p) . La méthode de construction des composantes diffère de celle de l’ACP, et présente l’avantage de bien s’accommoder de la présence de données manquantes. La détermination du nombre des composants à retenir est, en générale, fondée sur un critère mettant en jeu une validation croisé, l’utilisateur peut aussi fixer lui même la composante à retenir.

ACP et PLS sont des méthodes réduisent le nombre de prédicteurs jusqu’à obtenir un

ensemble plus restreint de composantes non corrélées [18].

(27)

Chapitre 2

Cadre théorique de la régression logistique

Introduction

Dans ce chapitre, on examine la cadre théorique de la régression logistique qui a pour objectif de modéliser la probabilité de survenue d’un événement en fonction de certaines variables explicatives. Il s’agit dans ce chapitre, de traiter uniquement le cas où la variable réponse est de type binaire (Oui|Non).

2.1 Spécification du modèle logistique

Soit la variable dépendente Y

i

binaire codée de la manière suivante :

y

_i

=



 

 

1 si survenue de l’évènement étudié

0 sinon (2.1)

La survenue de l’évènement est caractérisée par une variable aléatoire Bernoulli Y de paramètre P.

27

(28)

2.1. Spécification du modèle logistique 28

On a donc : y

i

=



 

 

1 survient avec une probabilité P

_i

= P rob(y

_i

= 1) 0 survient avec une probabilité 1 − P

_i

= P rob(y

_i

= 0)

(2.2) on dispose de p-variables potentiellement explicatives X

1

, X

2

, ..., X

p

de la variable Y.

Elles peuvent être quantitatives ou qualitatives. On note x

_ij

la valeur prise par la j- ème variable explicative X sur l’unité statistique "i" de la population étudiée. On a alors : x

_i

= (x

_i1

, x

_i2

, ..., x

_ip

)

⁰

; le vecteur colonnes des p-valeurs prises par les variables explicatives sur l’unité statistique "i".

Les x

_ij

sont supposées non aléatoires.

2.1.1 Hypothèses du modèle logistique

La régression de Y par rapport à X est l’espérance mathématique de Y conditionnelle à X : E(Y/X) = 1.P + 0.(1-P) = P

Par conséquent, les hypothèses du modèle portent sur les distributions de Y

_i

sachant X

_i

(i=1...n). Les variables Y

_i

sont indépendantes entre elles et suivent la loi Bernoulli de paramètre P

_i

:

P

_i

= E(Y

_i

/X

_i

) = P (Y

_i

= 1/X

_i

) = e

^x⁰ⁱ^β

1 + e

^x⁰ⁱ^β

(2.3)

Avec β sont les paramètres inconnus du modèle.

La probabilité de survenue de l’évènement est une fonction logistique qui est définie dans l’intervalle [0,1] pour toute valeur réelle X.

La relation entre la probabilité de survenue de l’évènement et X, exige la transformation Logit définie par :

Logit(P

_i

) = log( P

_i

1 − P

_i

) = β

₀

+ β

₁

x

_i1

+ β

₂

x

_i2

+ ... + β

_p

x

_ip

(2.4)

2.1.2 Interprétation des paramètres

Les coefficients estimés ne sont pas directement interprétantes.

Nous avons représenté sur la Figure 2.1 l’allure de la courbe représentative de la

fonction x 7−→

_1+e^e^xβxβ

pour différentes valeurs du paramètre β . On remarque que pour des

(29)

2.1. Spécification du modèle logistique 29

faibles valeurs de β on a une large plage de valeurs de x pour lesquelles la fonction se situe aux alentours de 0.5 (la fonction est même constante (0.5) dans le cas extrême β =0).

Figure 2.1 – P

_β

(Y = 1|X = x) pour différentes valeurs de β .

Pour ces valeurs P

_β

(x) = P

_β

(Y = 1|X = x) sera proche de 0.5 et on peut donc penser qu’il sera difficile de discriminer.

Lorsque β augmente, l’intervalle où la fonction est proche de 0.5 diminue et la fonction est proche de 0 ou 1 pour un grand nombre de valeurs de X. Plus β est grand, mieux on discrimine. Cependant une telle interprétation dépend des valeurs de X. C’est pourquoi en général l’interprétation des coefficients β s’effectue en termes d’odds ratio.

Odds Ratio

L’odds ratio (noté OR ) est l’outil qui nous permet l’interprétation facile et logique des résultats d’une régression logistique.

Définition 2.1. L’odds ratio (Rapport des chances) est le rapport de deux odds associés

(30)

2.1. Spécification du modèle logistique 30

à deux valeurs différentes de X (quantitative) respectivement x et t avec x=t+1

odds(x) = P (x) 1 − P (x)

odds(t) = P (t) 1 − P (t) où

P (x) = P (Y = 1|X = x) = e

^xβ

1 + e

^xβ

et

P (t) = P (Y = 1|X = t) = e

^tβ

1 + e

^tβ

L’odds ratio est défini par :

OR(x, t) = odds(x) odds(t) =

P (x) 1 − P (x)

P (t) 1 − P (t) et on note OR(x, t) par OR

_x/t

Si la variable explicative X est quantitative, on obtient en posant x = t + 1 et en fixant les autres variables :

OR

_x/t

=







P (Y

_i

= 1/X

_i

= x) 1 − P (Y

_i

= 1/X

_i

= x)

P (Y

_i

= 1/X

_i

= t) 1 − P (Y

_i

= 1/X

_i

= t)







On trouve OR = e

^β

Démonstration.

OR

_x/t

=

e

^β⁰^+β¹^x

(1 + e

^β⁰^+β¹^x

) 1 + e

^β⁰^+β¹^x

e

^β⁰^+β¹^t

(1 + e

^β⁰^+β¹^t

)

1 + e

^β⁰^+β¹^t

= e

^β⁰^+β¹^x

e

^β⁰^+β¹^t

= e

^β⁰^+β¹^(t+1)

e

^β⁰^+β¹^t

= e

^β¹

(31)

2.1. Spécification du modèle logistique 31

car,

1 − P (Y

i

= 1/X

i

= x) = 1 − e

^β⁰^+β¹^x

1 + e

^β⁰^+β¹^x

= 1 + e

^β⁰^+β¹^x

− e

^β⁰^+β¹^x

1 + e

^β⁰^+β¹^x

= 1

1 + e

^β⁰^+β¹^x

donc :

1 1 − P (Y

_i

= 1/X

_i

= x) = 1 + e

^β⁰^+β¹^x

(2.5)

Si la variable explicative X est qualitative binaire, l’OR permet de comparer les odds de deux modalités de cette variable. Pour l’individu statistique i, on a :

OR

_1/0

=







P (Y

_i

= 1/X

_i

= 1) 1 − P (Y

i

= 1/X

i

= 1)

P (Y

i

= 1/X

i

= 0) 1 − P (Y

_i

= 1/X

_i

= 0)







Ici OR

_1/0

représente le rapport de cote du risque de la survenue de l’évènement chez les individus statistiques exposés (X

_i

= 1) par rapport aux individus statistiques non exposés (X

_i

= 0) , toutes choses égales par ailleurs. Les valeurs des OR sont interprétées de la façon suivante :

-Pour la variable quantitative :

Le logarithme népérien de la probabilité de survenue d’un évènement augmente de β ˆ pour chaque unité supplémentaire de X.

X est considérée comme facteur favorisant du risque lorsque son Odds Ratio est supérieur à 1.

X est considérée comme facteur handicapant la survenue de l’évènement lorsque son Odds Ratio est inférieur à 1.

X est considérée sans effet sur la survenue de l’évènement lorsque son Odds Ratio est égale à 1.

-Pour la variable qualitative binaire :

Si OR>1 , le risque de survenue de l’évènement (Y

_i

= 1) chez les individus exposés

(X

_ij

= 1) est plus élevé que le risque de la survenue de l’évènement (Y

_i

= 1) chez les

(32)

2.1. Spécification du modèle logistique 32

individus statistiques non-exposés (X

_ij

= 0) , toutes choses égales par ailleurs. Dans ce cas on appelle la variable explicative X

ij

facteur favorisant .

Si OR=1 , le risque de survenue de l’évènement (Y

_i

= 1) chez les individus statistiques exposés (X

_ij

= 1) est égale au risque de la survenue de l’évènement (Y

_i

= 1) chez les individus non-exposés (X

_ij

= 0) , toutes choses égales par ailleurs. X est considérée sans effet sur la survenue de l’évènement lorsque son Odds Ratio est égale à 1.

Si OR<1 , le risque de survenue de l’évènement (Y

_i

= 1) chez les individus exposés (X

_ij

= 1) est plus faible que le risque de la survenue de l’évènement (Y

_i

= 1) chez les individus statistiques non-exposés (X

_ij

= 0) , toutes choses égales par ailleurs. Dans ce cas, on appelle la variable explicative X

_ij

facteur handicapant ou freinant .

Intervalles de confiance de l’OR :

Lorsque la taille de l’échantillon est suffisamment grande, l’estimateur du maximum de vraisemblance (E.M.V) est asymptotiquement normale, cela implique que chaque composant de vecteur (chaque β

_j

) suit la loi normale asymptotiquement β ˆ

_j

N (β

_j

, V ( ˆ β

_j

)), ∀j = 1, ..., p . Ceci permet de calculer les intervalles de confiances pour les coefficients estimés :

IC

_β_j

=

β ˆ

_j

− |z

1−^α

2

|.

q V ˆ ( ˆ β

_j

) , β ˆ

_j

+ |z

1−^α

2

|.

q V ˆ ( ˆ β

_j

)

où, z

₁₋^α

2

est le fractile d’ordre (

^α₂

) de la loi normale N (0, 1) .

Et comme l’OR est l’exponentielle de β

_j

, alors l’intervalle de confiance de OR est donné par :

IC

_OR

=

e

^β^ˆ^j^−|z¹⁻^α²^|.

√

Vˆ( ˆβj)

, e

^β^ˆ^j^+|z¹⁻^α²^|.

√

Vˆ( ˆβj)

Si on test : 

 

 

H

₀

: OR = 1 H

₁

: OR 6= 1

On dit que l’OR est statistiquement significatif au seuil α si la valeur 1 n’appartient pas

à l’IC trouvé.

(33)

2.2. Estimation des paramètres du modèle logistique 33

2.2 Estimation des paramètres du modèle logistique

On ne peut pas estimer les paramètres du modèle logistique par la méthode des moindres carrés ordinaires comme dans le modèle linéaire pour plusieurs raisons [6] :

Premièrement , parce que la variable Y

_i

est de type qualitative. Ainsi, le premier problème de l’application du modèle linéaire à une variable dichotomique, est que le paramètre β du modèle n’est pas ’interprétable’.

Deuxièmement , une étude graphique montre que l’approximation linéaire est peu adaptée au problème posé. Considérons pour cela le modèle linéaire avec une seule variable explicative α , notée x

_i1

, et une constante. On pose β = (β

₀

, β

₁

)

⁰

et l’on considère le modèle linéaire suivant :

y

_i

= x

_i1

β

₁

+ ε

_i

, ∀i = 1, ..., N

Pour constater l’inadéquation de ce modèle à reproduire correctement la variable en-

dogène dichotomique y

_i

, il suffit de se placer dans un repère (x

₁

, y) et de reproduire les N

différents couples (x

_i1

, y

_i

) , ∀ i= 1,.., N. Naturellement, du fait du statut dichotomique de

la variable endogène, le nuage de points ainsi obtenu se situe soit sur la droite y = 0 , soit

sur la parallèle y = 1 (figure 2.2), pour cela on prend un petit exemple illustratif [20] :

On dispose la valeur de taille exprimée en centimètres (quantitative) et le groupe des

individus "connus" (binaire). On va essayer de prédire la valeur du groupe à partir d’une

seule variable taille , on a les données suivantes :

(34)

2.2. Estimation des paramètres du modèle logistique 34

taille grp taille grp taille grp

130 0 161 1 170 1

140 0 136 0 168 1

162 0 180 1 175 1

160 1 190 1 181 1

136 0 132 0 173 1

165 1 141 1 169 1

130 0 165 1 178 1

135 0 168 1 179 1

140 0 182 1 175 1

135 0 177 1 164 1

En utilise Logiciel R pour déterminer la représentation graphique correspondante à ces données :

Figure 2.2 – Régression linéaire pour données qualitatives, avec K=1

Ainsi, comme on l’observe sur la figure ci-dessus, il est impossible d’ajuster de façon

(35)

2.2. Estimation des paramètres du modèle logistique 35

satisfaisante, par une seule droite, le nuage de points, associé à une variable dichotomique qui, par nature, est réparti sur deux droites parallèles.

Troisièmement , la spécification linéaire standard ne convient pas aux variables di- chotomiques, et plus généralement aux variables qualitatives, car elle pose un certain nombre de problèmes mathématiques.

Sachant que dans le cas d’une variable endogène Y

_i

dichotomique, la spécification linéaire (1.1) implique que la perturbation ε

_i

ne peut prendre, elle aussi, que 2 valeurs, conditionnellement au vecteur x

_i

:

ε

_i

=



 

 

1 − x

⁰_i

β, avec une probabilité x

⁰_i

β

−x

⁰_i

β, avec une probabilité 1 − x

⁰_i

β

Ce qui est trop éloigner des hypothèses usuelles de continuité et de normalité des résidus, par ailleur l’estimation de β ˆ n’est plus efficace.

E(Y

i

) = x

⁰_i

β dans le modèle linéaire, et comme Y

i

suite une loi de Bernoulli de paramètre p

_i

et d’espérance E(Y

_i

) = p

_i

, il en découle que p

_i

= x

⁰_i

β , or rien n’indique que x

⁰_i

β sera compris entre "0" et "1".

La méthode la plus adéquate pour estimer les paramètres β est la méthode du maximum de vraisemblance pour la régression logistique.

La fonction de vraisemblance est définie comme la probabilité d’observer le n-échantillon Y

_i

sachant X

_i

.

Définition 2.2. [12] On appelle fonction de vraisemblance de β pour une réalisation (x

₁

, ..., x

_n

) d’un échantillon, la fonction de β :

L(β) = L(x

₁

, x

₂

, ..., x

_n

, β) =

n

Y

i=1

f (x

_i

, β)

L(β) =

n

Y

i=1

P

_β

(Y = y

_i

|X = x

_i

)

=

n

Y

i=1

[(P

_β

(x

_i

))

^yⁱ

× (1 − P

_β

(x

_i

))

^1−yⁱ

]

Ensuite, pour faciliter la solution du problème de maximisation on calcule le logarithme

de la fonction de vraisemblance (la maximisation de la fonction de vraisemblance ou la

(36)

2.2. Estimation des paramètres du modèle logistique 36

maximisation de son logarithme est identique) l(β) = Log(L(β))

= Log

n

Y

i=1

P

_β

(Y = y

_i

|X = x

_i

)

!

=

n

X

i=1

Log((P

_β

(x

_i

))

^yⁱ

× (1 − P

_β

(x

_i

))

^1−yⁱ

)

=

n

X

i=1

[y

_i

Log(P

_β

(x

_i

)) + (1 − y

_i

)Log(1 − P

_β

(x

_i

))]

=

n

X

i=1

[y

_i

Log(P

_β

(x

_i

)) + Log(1 − P

_β

(x

_i

)) − y

_i

Log(1 − P

_β

(x

_i

))]

=

n

X

i=1

y

_i

Log

P

_β

(x

_i

) 1 − P

_β

(x

_i

)

+ Log(1 − P

_β

(x

_i

))

=

n

X

i=1

[y

_i

Logit(P

_β

(x

_i

)) + Log(1 − P

_β

(x

_i

))]

=

n

X

i=1

y

i

x

⁰_i

β + Log

1 − e

^x⁰ⁱ^β

1 + e

^x⁰ⁱ^β

=

n

X

i=1

y

i

x

⁰_i

β + Log

1 1 + e

^x⁰ⁱ^β

et donc on a le résultat suivant : l(β) =

n

X

i=1

h

y

_i

x

⁰_i

β − Log(1 + e

^x⁰ⁱ^β

) i Le vecteur gradient au point β défini par :

∇l(β) = ∂l

∂β

0

(β), ..., ∂l

∂β

p

(β)

⁰

La composante j (j=1...p) de ce vecteur s’écrit :

∂l

∂β

_j

(β) =

n

X

i=1

y

i

x

ij

− x

_ij

e

^x⁰ⁱ^β

1 + e

^x⁰ⁱ^β

=

n

X

i=1

[x

_ij

(y

_i

− P

_β

(x

_i

))]

Ce qui donne en écriture matricielle :

∇l(β) =

n

X

i=1

[x

ij

(y

i

− P

β

(x

i

))]

et on note :

∇l(β) = X

⁰

(Y − P

_β

)

(37)

2.2. Estimation des paramètres du modèle logistique 37

où : Y = (y

₁

...y

_n

)

⁰

et P

_β

= (p

_β

(x

₁

)...p

_β

(x

_n

))

⁰

. L’estimateur de maximum de vraisemblance (s’il existe) est la solution de l’équation (appelée équation du score) :

S(β) = ∇l(β) = X

⁰

(Y − P

_β

) = 0 (2.6) Si cette équation admet une solution en β notée g(y

₁

, ..., y

_n

) , et que cette solution est un maximum de l(β) , alors l’estimateur de maximum de vraisemblance est données par : β

⁰

= g(Y

₁

, ..., Y

_n

) .

Trouver explicitement β ˆ n’est pas possible. En effet, l’équation (2.12) se réécrit :



 



 



x

₁₁

y

₁

+ ... + x

_n1

y

_n

= x

₁₁ ^e^(β¹^x¹¹⁺^...+βpx^1p⁾

1+e^(β¹^x¹¹⁺^...+βpx1p⁾

+ ... + x

_n1 ^e^(β^1xn1+^...+βpxnp)

1+e^(β^1xn1+^...+βpxnp)

. . .

x

_1p

y

₁

+ ... + x

_np

y

_n

= x

_1p ^e^(β¹^x¹¹⁺^...+βpx1p⁾

1+e^(β¹^x¹¹⁺^...+βpx^1p⁾

+ ... + x

_np ^e^(β¹^xn1+^...+βpxnp)

1+e^(β¹^xn1+^...+βpxnp)

Ce système (qui n’est pas linéaire en β ) n’admet pas la solution analytique, on a donc recours à des algorithmes numériques qui nécessitent de connaître d’éventuelles propriétés sur la régularité de la fonction à optimiser (en terme de convexité par exemple).

2.2.1 Algorithme de Newton-Raphson

La méthode de Newton-Raphson permet une résolution numérique des équations du score [14]. Pour simplifier les notations, nous supposons que β est univarié. On part tout d’abord d’une valeur initiale arbitraire de β , notée β

₀

et on désigne par :

β

₁

= β

₀

+ h

une valeur candidate pour être solution de S(β) = 0 , c’est-à-dire S(β

₀

+ h) = 0 . Par un développement limité à l’ordre un de la fonction S, on obtient l’approximation suivante :

S(β

0

+ h) ' S(β

0

) + hS

⁰

(β

0

) comme S(β

0

+ h) = 0 , on obtient pour la valeur suivante :

h = −[S

⁰

(β

₀

)]

⁻¹

S(β

₀

) et donc

β

₁

= β

₀

− [S

⁰

(β

₀

)]

⁻¹

S(β

₀

)

(38)

2.2. Estimation des paramètres du modèle logistique 38

Dans le cas qui nous concerne β ∈ R

^p

et S(β) = ∇l(β) , la formule de récurrence se traduit par :

β

₁

= β

₀

− [∇

²

l(β

₀

)]

⁻¹

∇l(β

₀

)

où, ∇

²

l(β

₀

) désigne la matrice hessienne de log-vraisemblance au point β

₀

∇

²

l(β

₀

)

_kl

=

∂

²

l

∂β

_k

∂β

_l

(β

₀

)

, 0 ≤ k, l ≤ p où, nous commettons toujours l’abus de désigne par :

∇

²

l(β

₀

)

_kl

, le terme de la (k + 1)

^ème

ligne et (l + 1)

^ème

colonne de ∇

²

l(β

₀

) , le processus est ensuite itéré jusqu’à convergence, il se résume de la manière suivante :

1.Choix d’un point de départ β

0

, 2.On construit β

_k+1

à partir de β

_k

.

β

_k+1

= β

_k

+ A

_k

∇l(β

_k

)

où, ∇l(β

_k

) est le gradient au point β

_k

, et A

_k

= −[∇

²

l(β

₀

)]

⁻¹

est la matrice de "pas" de l’algorithme (l’inverse de la matrice hessienne de l au point β

_k

)

Calcul des estimateurs

Calculons la matrice hessienne ∇

²

l(β) = h

∂²l

∂βk∂βl

(β) i

0≤k,l≤p

:

∂

²

l

∂β

_k

∂β

_l

(β) = ∂

∂β

_k

"

_n

X

i=1

y

_i

x

_il

− x

_il

e

^x⁰ⁱ^β

1 + e

^x⁰ⁱ^β

#

= (x

_il

x

_ik

e

^x⁰ⁱ^β

)(1 + e

^x⁰ⁱ^β

) − (x

_ik

e

^x⁰ⁱ^β

)(x

_il

e

^x⁰ⁱ^β

) (1 + e

^x⁰ⁱ^β

)

²

= −

n

X

i=1

x

_ik

x

_il

e

^x⁰ⁱ^β

(1 + e

^x⁰ⁱ^β

)

²

= −

n

X

i=1

x

_ik

x

_il

P

_β

(x

_i

)(1 − P

_β

(x

_i

)) en écriture matricielle nous obtenons :

∇

²

l(β) = −

n

X

i=1

x

_ik

x

_il

P

_β

(x

_i

)(1 − P

_β

(x

_i

)) = X

⁰

W

_β

X