République Algérienne Démocratique et Populaire Ministère de l’enseignement Supérieur et de la Recherche Scientifique
Université Mohammed Seddik Ben Yahia - Jijel Faculté des Sciences Exactes et Informatique
Département des Mathématiques
№ d’ordre :...
№ de série :...
Mémoire de fin d’études pour l’obtention du diplôme de
Master
Filière : Mathématiques
Spécialité : Probabilités et statistique
Thème
Modélisation statistique du comportement des barrages : cas Beni Haroun
Présenté par :
BOURIDANE Abdennour BELAFRITES Aissam
Sous la direction de :
Dr.LAOUDJ Farida (Maîtresse de conférence A) Devant le jury :
Présidente : Mme. YAKOUBI Fatima (MAA université de jijel).
Examinatrice : Mme. DJERIDI Zohra (MAA université de jijel).
Examinatrice : Mme. GHOUIL Djoweyda (MAA université de jijel).
Promotion 2017/2018
Table des matières
Introduction générale 9
I Cadre théorique du modèle linéaire multiple et du modèle
logistique 11
Introduction 12
1 Cadre théorique de la régression linéaire multiple 13
1.1 Spécification du modèle linéaire multiple . . . 13
1.1.1 Écriture simple du modèle . . . 13
1.1.2 Écriture matricielle du modèle . . . 14
1.1.3 Hypothèses du modèle linéaire . . . 15
1.2 Estimation des paramètres du modèle . . . 15
1.2.1 Estimation par la méthode des moindres carrés ordinaires MCO . . 15
1.2.2 Propriétés de l’estimateur MCO . . . 16
1.3 Sélection du modèle final . . . 17
1.3.1 Méthode Pas à Pas Descendante . . . 18
1.3.2 Méthode Pas à Pas Ascendante . . . 22
2
Table des matières 3
1.4 Adéquation du modèle final . . . 22
1.4.1 Indépendance des erreurs aléatoires . . . 22
1.4.2 Normalité des erreurs aléatoires . . . 23
1.4.3 Homoscédasticité . . . 23
1.5 Problème de la multi-colinéarité . . . 23
1.5.1 Qu’est ce qu’une multi-colinéarité ? . . . 23
1.5.2 Détection du problème . . . 24
1.5.3 Comment traiter un problème de multicolinéarité ? . . . 26
2 Cadre théorique de la régression logistique 27 2.1 Spécification du modèle logistique . . . 27
2.1.1 Hypothèses du modèle logistique . . . 28
2.1.2 Interprétation des paramètres . . . 28
2.2 Estimation des paramètres du modèle logistique . . . 33
2.2.1 Algorithme de Newton-Raphson . . . 37
2.3 Sélection du modèle final . . . 39
2.3.1 Méthode Pas à Pas Descendante . . . 39
2.3.2 Signification statistique des paramètres . . . 40
2.4 Adéquation du modèle logistique . . . 41
2.4.1 Analyse des résidus . . . 41
2.4.2 Classement des individus statistiques . . . 41
2.4.3 Sensibilité et spécificité . . . 42
2.4.4 Valeurs prédictives . . . 43
Table des matières 4
2.4.5 Courbe de ROC (Receiver Operating Characteristic) . . . 43
Synthèse de la première partie 46 II Application du modèle linéaire multiple et du modèle logis- tique 47 Introduction de la partie 48 3 Modélisation de comportement du barrage de Beni Haroun 49 3.1 Brève présentation du barrage de Beni-Haroun . . . 49
3.2 Modélisation de comportement du barrage par le modèle linéaire multiple . 50 3.2.1 Objectif . . . 50
3.2.2 Données statistiques utilisées . . . 51
3.2.3 Description statistique des différentes variables . . . 54
3.2.4 Présentation du modèle . . . 59
3.2.5 Sélection des variables incluses dans le modèle . . . 59
3.2.6 Adéquation du modèle final . . . 65
3.3 Modélisation de comportement du barrage par le modèle logistique . . . . 67
3.3.1 Objectif . . . 67
3.3.2 Présentation du modèle de régression logistique . . . 69
3.3.3 Estimation des paramètres et intervalles de confiance . . . 70
3.3.4 Interprétation des résultats . . . 72
3.3.5 Adéquation du modèle final . . . 74
Synthèse de la partie 77
Table des matières 5
Conclusion générale 78
Perspectives 79
Résumé 80
biblioghraphie 80
Table des figures
2.1 P
β(Y = 1|X = x) pour différentes valeurs de β . . . 29
2.2 Régression linéaire pour données qualitatives, avec K=1 . . . 34
2.3 Courbe ROC obtenues lorsque AUC=0.5 . . . 44
2.4 Courbe ROC obtenues lorsque AUC=1 . . . 45
2.5 Courbe ROC obtenues lorsque AUC est entre 0.5 et 1 . . . 45
3.1 Vue générale au barrage de Beni Haroun. . . 50
3.2 schéma qui illustre le phénomène étudié . . . 51
3.3 Les pendules direct et inverse. . . 52
3.4 Le placement de pendule PD3.175 R sur la digue du barrage. . . 52
3.5 Le placement de pcv-1 sur la fondation du barrage. . . 53
3.6 Nuage des points entre les différentes variables explicatives et la variable quantitative à expliquer (Pend). . . 56
3.7 X
2facteur de confusion. . . 58
3.8 Le déplacement de pendule lorsque la côte augmente de quatre mètres. . . 62
3.9 Le déplacement de pendule lorsque la Côte augmente de cinq mètres. . . . 63
3.10 Le déplacement du pendule lorsque le niveau piézométrique augmente d’un mètre. . . 64
6
Table des figures 7
3.11 Le déplacement du pendule lorsque la température augmente de 7 degrés. . 65 3.12 Résidus vs prédictions (à gauche) et Q-Q (à droite) . . . 66 3.13 Résidus en fonction des observations ’Pend’. . . 66 3.14 Présentation des valeurs observations et les prédictions. . . 67 3.15 Évolution des probabilités prédites entre le 15 janvier 2008 et le 18 janvier
2018 . . . 74
3.16 La courbe ROC du modèle final . . . 76
Liste des tableaux
2.1 Classement des individus statistiques : confusion prédictions et observations 42
3.1 Extrait des données pour les différents variables. . . 54
3.2 Résumé statistique de tableau des données. . . 55
3.3 Matrice des corrélations entre les variables prise 2 × 2. . . 57
3.4 Matrice des coefficients corrélations partiels entre les variables 2 × 2. . . 58
3.5 Estimation et signification statistique des paramètres du modèle. . . 60
3.6 Estimation et test de nullité des paramètres du modèle. . . 60
3.7 Détection de multicolinéarité par le critère de VIF. . . 61
3.8 Comparaison des différents modèles par l’AIC et le BIC. . . 61
3.9 Extrait de la base des données utilisée pour le modèle logistique. . . 69
3.10 Estimation des paramètres du modèle complet. . . 70
3.11 Intervalles de confiance et Odds ratio . . . 71
3.12 Estimation des paramètres du modèle sans la variable âge. . . 71
3.13 Intervalles de confiance des paramètres et Odds ratio . . . 72
3.14 Classement des observations par le modèle logit au seuil 0.5 . . . 75
8
Introduction générale
La surveillance des barrages est primordiale puisque la rupture de ces ouvrages est sus- ceptible d’entraîner des conséquences économiques et humaines dramatiques. Le contrôle de la sécurité consiste à détecter et à maîtriser les mécanismes de dégradation pouvant entraîner la rupture de l’ouvrage si aucune action n’est entreprise (maintenance, vidange d’urgence . . . etc). La surveillance se fait par plusieurs outils dont "les pendules".
Nous avons réalisé un stage de courte durée au sein de la direction du barrage de Beni Haroun ; avec une objectif d’analyser le comportement du barrage. Ce comportement se traduit par le déplacement des pendules par rapport à une valeur prise initialement. Le barrage est équipé de 40 pendules de types différents (inverse et direct) qui sont placés sur la digue aux différents endroits. Dans notre étude, on s’intéresse uniquement à un seul pendule qui est ’ PD3.175 R ’. Ce choix est justifié par le fait qu’il est placé dans une endroit sensible.
On cherche, dans un premier temps, à expliquer le mouvement de la digue du barrage qui est exprimé par la différence entre la valeur observée à l’instant t et la valeur initiale prise le 01 septembre 2003 (date de la mise en service du barrage). On cherche, plus précisément, à mesurer l’effet des facteurs explicatifs sur le déplacement du pendule de sa position initiale. Le modèle statistique qui permet de répondre à cet objectif est le modèle linéaire multiple.
Dans un second temps, on s’interroge sur la probabilité de survenue d’un mouvement
"important" du barrage. Le modèle statistique qui permet de l’estimer, en prenant en compte plusieurs facteurs explicatifs, est le modèle logistique.
Par conséquent, ce présent mémoire s’organise en deux parties :
9
Introduction générale 10
- la première est intitulée ’Cadre théorique du modèle linéaire multiple et du modèle logistique’. Elle a pour but de présenter la démarche statistique de la modélisation linéaire et logistique.
- La seconde partie est intitulée ’ Application du modèle linéaire multiple et du modèle
logistique’. Elle vise à étudier le comportement du barrage de Beni Haroun en modélisant,
d’une part, le déplacement du pendule ’ PD3.175 R ’ de sa position initiale, et d’autre
part, la probabilité de survenue d’un mouvement relativement "important" de la digue
du barrage, en fonction de certains facteurs potentiellement explicatifs.
Première partie
Cadre théorique du modèle linéaire multiple et du modèle logistique
11
Introduction
Les modèles de régression sont très utiles dans les situations où l’on souhaite étudier la relation entre une variables d’intérêt Y et plusieurs variables potentiellement explicatives X
1, X
2,..., X
p. Le choix du modèle dépend seulement de la nature de la variable à expliquer Y et de l’objectif que l’on souhaite atteindre.
Si l’objectif est d’expliquer ou de prédire la variable dépendante Y (variable quantita- tive), le modèle utilisé est le modèle de régression linéaire multiple. Si, en revanche, Y est qualitative et l’objectif est d’étudier la probabilité de survenue d’un évènement (Y=1), le modèle adéquat est le modèle de régression logistique. Pour ces deux modèles, la démarche statistique est la même :
- Spécification du modèle.
- Estimation des paramètres du modèle.
- Sélection du modèle final et tests d’hypothèses sur les paramètres du modèle.
- Adéquation du modèle.
12
Chapitre 1
Cadre théorique de la régression linéaire multiple
Le modèle linéaire est le modèle de base que l’on utilise pour analyser une expérience où l’on étudie sur n individus statistiques (ou unités statistiques) les variations d’une variable réponse quantitative Y en fonction des facteurs explicatifs X. Dans ce chapitre, on a réalisé une synthèse des différentes façons dont le modèle linéaire est présentés dans les ouvrages documentés (voir bibliographie).
1.1 Spécification du modèle linéaire multiple
1.1.1 Écriture simple du modèle
Nous supposons que la variable à expliquer Y est une variable aléatoire et p variables potentiellement explicatives X=( X
1, X
2, ..., X
P) sont non aléatoires ; qui peuvent être qua- litatives ou quantitatives.
Définition 1.1. [13] Un modèle de régression linéaire multiple est de la forme suivante :
Y
i= β
0+ X
i1β
1+ ... + X
ipβ
p+ ε
i= β
0+
p
X
j=1
β
jX
ij+ ε
i, ∀i = 1, ..., n (1.1)
Où les ε
isont les variables aléatoires indépendantes distribuées selon une loi normale
13
1.1. Spécification du modèle linéaire multiple 14
de moyenne nulle et de variance σ
2.
Y
i: variable à expliquer observée sur le ième individu statistique et elle est supposée aléatoire.
X
ij: la jème variable explicative observée sur le ième individu statistique et elle est non aléatoire.
ε
ireprésente l’erreur aléatoire du modèle.
β
0la constante du modèle. C’est l’espérance mathématique de Y/X lorsque X=0.
β
jle coefficient de la jème variable explicative X
j. Ce coefficient s’interprète comme l’effet marginal d’une unité supplémentaire de X sur la variable Y . Elle correspond à la variation de β
junités de Y induite par la variation d’une unité de X, toutes choses égales par ailleurs.
1.1.2 Écriture matricielle du modèle
On peut écrire le modèle précédent sous une forme matricielle :
Y = Xβ + ε (1.2)
avec :
Y =
y
1y
2.. . y
n
n×1
X =
1 x
11x
12... x
1p1 x
21x
22... x
2p. . . .
. . . .
. . . .
1 x
n1x
n2... x
np
n×(p+1)
β =
β
0β
1.. . β
p
(p+1)×1
et ε =
ε
1ε
2.. . ε
n
n×1
où Y est le vecteur aléatoire de taille ( n, 1 ), contient les n variables aléatoires à expli- quer.
X est la matrice non aléatoire de p variables explicatives, de taille ( n, (p + 1) ).
β est le vecteur de taille ( (p + 1), 1 ) contient les p coefficients (ou paramètres) inconnus
associés aux p variables explicatives.
1.2. Estimation des paramètres du modèle 15
ε est le vecteur aléatoire de taille ( n, 1 ) des n erreurs aléatoires du modèle.Il suit la loi normale multivariée d’espérance nulle et de matrice variance-covariance σ
2I
n( I
nétant la matrice identité de taille n).
1.1.3 Hypothèses du modèle linéaire
Les hypothèses traditionnelles du modèle (voir annexe 1) peuvent être expliciter en spécifiant les propriétés de la distribution des variables Y
iconditionnellement à X
i:
- Linéarité E(Y
i/X
i) = β
0+ X
i1β
1+ ... + X
ipβ
p, ∀i = 1, ..., n car E[ ε
i]=0.
- Homoscédasticité : hypothèse d’égalité des variances. V (Y
i/X
i) = σ
2∀i = 1, ..., n car V( ε
i)= σ
2- Normalité : La distribution conditionnelle de Y
isachant X
iest gaussienne de para- mètres : (β
0+ X
i1β
1+ ... + X
ipβ
p, σ
2)
- Indépendance : Conditionnellement à X
i, la variable Y
i/ X
iest indépendante de Y
i0/ X
i0pour tout ∀i 6= i
0.
1.2 Estimation des paramètres du modèle
1.2.1 Estimation par la méthode des moindres carrés ordinaires MCO
La méthode d’estimation des paramètres du modèle est la méthode des moindres carrés ordinaire MCO. Il s’agit de minimiser la somme des carrés des résidus ε = Y − Xβ . Sous forme matricielle, on cherche à minimiser S(β) :
S(β) = (Y − Xβ)
0(Y − Xβ)
= Y
0Y + β
0X
0Xβ − Y
0Xβ − β
0X
0Y
= Y
0Y + β
0X
0Xβ − 2β
0X
0Y
1.2. Estimation des paramètres du modèle 16
où ; la matrice (X’X) est symétrique définie positive. La condition nécessaire d’opti- mum est que la dérivée première par rapport à β s’annule :
∂S(β)
∂β = −2X
0Y + 2X
0X β ˆ = 0 ce qui revient à résoudre l’équation :
(X
0X) ˆ β = X
0Y
Si la matrice (X’X) est inversible, alors l’équation précédente possède une solution qui est :
β ˆ = (X
0X)
−1X
0Y
La condition nécessaire pour que (X’X) soit inversible est qu’il ait plus d’observations que de paramètres à estimer dans le modèle.
Pour s’assurer que ce point β ˆ est bien un minimum strict, il faut que la dérivée seconde soit une matrice définie positive, or la dérivée seconde s’écrit :
∂2∂βS(β)2= 2X
0X , et X est de plein rang donc X’X est inversible et n’a pas de valeur propre nulle, la matrice X’X est donc définie. De plus ∀z ∈ R
pnous avons :
z
02X
0Xz = 2 hzX, Xzi = kXzk
2≥ 0 (X’X) est donc bien définie positive et β ˆ est bien un minimum strict.
1.2.2 Propriétés de l’estimateur MCO
Proposition 1.1. [8] L’estimateur β ˆ des moindres carrés ordinaires est sans biais E( β)=β ˆ
1.3. Sélection du modèle final 17
Démonstration.
E( ˆ β) = E((X
0X)
−1X
0Y )
= (X
0X)
−1X
0E(Y )
= (X
0X)
−1X
0E(Xβ + ε)
= (X
0X)
−1(X
0X)β + (X
0X)
−1X
0E(ε)
= (X
0X)
−1X
0Xβ
= β
car E( ε ) =0.
Proposition 1.2. [8] La matrice variance-covariance des estimateurs β ˆ des moindres carrés est égale à Var( β)=σ ˆ
2(X
0X)
−1Démonstration. V( β ˆ )=V( (X
0X)
−1X
0Y )= (X
0X)
−1X
0V (Y )X(X
0X)
−1Or V(Y) =V( Xβ + ε )=V( ε )= σ
2I
nOn obtient :
V ar( ˆ β) = σ
2(X
0X)
−1X
0X(X
0X)
−1= σ
2(X
0X)
−1La variance des résidus σ
2est estimée par [8] : ˆ
σ
ε2= P
ni=1
(y
i− y ˆ
i)
2n − p − 1
L’estimateur des moindres carrés possède donc des bonnes propriétés. Il est aussi optimal dans la mesure où il est de variance minimale parmi tous les autres estimateurs linéaires sans biais. On dit qu’il est BLUE (Best Linear Unbiased Estimator).
1.3 Sélection du modèle final
A partir des données statistiques, on peut estimer plusieurs modèles pour ajuster
les données statistiques. Nous devons choisir le meilleur pour ajuster les données d’une
1.3. Sélection du modèle final 18
façon pertinente. Après avoir estimé les paramètres du modèle, on procède à la sélection du modèle final. Ceci est possible par plusieurs méthodes et les plus utilisées sont les suivantes :
1.3.1 Méthode Pas à Pas Descendante
Le principe de cette méthode est d’estimer, dans un premier temps, le modèle complet qui contient toutes les variables explicatives. Puis, on procède à éliminer les variables explicatives du modèle, une par une, jugées statistiquement non significatives au seuil α (erreur de première espèce). La procédure s’arrête lorsque toutes les variables deviennent statistiquement significatives et différentes de 0 (sauf variables forcées)[2].
Tests statistiques paramétriques
On se base sur le test de Student pour tester la signification de l’effet ( β
j) de la variable X
jsur Y , toutes choses est égales par ailleurs.
Les hypothèses à tester sont :
H
0: β
j= 0 H
1: β
j6= 0 Avec la statistique de test :
T =
β ˆ
j− E( ˆ β
j) ˆ σ
βˆj=
β ˆ
j− β
jˆ σ
βˆjsous H
0la statistique du test est :
T = β ˆ
jˆ σ
βˆj
T (n − p − 1) seuil α
T suit une loi de Student à (n-p-1) degré de liberté (ddl). Avec n la taille de l’échantillon et p+1 le nombre du paramètres à estimer dans le modèle.
car : E( β ˆ
j) = β
jNous rejetons H
0si la valeur de la statistique observée est supérieure à la valeur de T
théorique lue dans la table de la loi de student au seuil choisi.
1.3. Sélection du modèle final 19
On test ensuite le modèle dans sa globalité par le test statistique paramétrique de Fischer :
Les hypothèses du test sont :
H
0: β
1= β
2= ... = β
p= 0 H
1: ∃j ∈ [1 : p]; β
j6= 0 la statistique du test est :
F = SCE/p
SCR/n − p − 1 F (p, (n − p − 1)) telle que :
SCE = P
ni=1
(ˆ y
i− y)
2: la somme des carrés explicative due à la régression.
SCR = P
ni=1
(y
i− y ˆ
i)
2: somme des carrés des écarts résiduels.
F suit une loi de Fischer à p et (n − p − 1) degrés de liberté.
Nous rejetons H
0si la valeur de la statistique observée est supérieure à la valeur de F théorique lue dans la table de la loi de Fischer au seuil (erreur de première espèce) choisi.
Lorsque nous souhaitons comparer deux modèles emboîtés, on les comparent par le test de Fischer aussi, en testant les hypothèses suivantes :
M odele(M
1) : β
0+ ... + β
qx
qM odele(M
2) : β
0+ β
1x
1+ ... + β
qx
q+ ... + β
px
pla statistique de test est :
F = R
2(M
1) − R
2(M
2)/q 1 − R
2(M
1)/(n − p − 1)
suit une loi de Fischer à q et (n−p−1) degrés de liberté, avec R
2(M
i) c’est le coefficient de détermination du modèle ’i’.
Pour finir la sélection du modèle final, on consolide le test de signification du modèle
dans sa globalité par d’autres critères.
1.3. Sélection du modèle final 20
Critères de sélection
Coefficient de détermination
Le coefficient de détermination mesure la qualité des prédictions du modèle linéaire.
Plus sa valeur est élevée mieux est le modèle et vice-versa [3].
sa formule est donnée par :
R
2= SCE
SCT = 1 − SCR SCT
telle que : SCE = P
ni=1
(ˆ y
i− y)
2: la somme des carrés explicative due à la régression.
SCR = P
ni=1
(y
i− y ˆ
i)
2: somme des carrés des écarts résiduels. SCT = SCR+ SCE somme des carrés totaux.
Il est exprimé en pourcentage et mesure le pourcentage de variation de Y expliquée par les p variables explicatives. On peut l’interpréter comme le pourcentage de variance expliquée par le modèle dans la variance totale.
Ce coefficient peut être influencé par le nombre de paramètres introduits dans le mo- dèle. Plus ce nombre est important, plus la valeur du coefficient augmente. On risque alors de conclure que le modèle explique bien le phénomène alors qu’il ne l’est pas. D’où le re- cours au coefficient de détermination ajusté qui prend en compte le nombre de paramètres à estimer du modèle.
Par exemple, si on compare un modèle à p-2 variables à un autre modèle à p variables qui a un R² plus élevé que celui à p-2, cela signifie-t-il que le R² du modèle à p variables est plus élevé parce que ce modèle est vraiment meilleur ? Ou bien est-il plus élevé parce qu’il y a simplement plus paramètres ? Le R
2ajusté (noté R
2adj) [3] permet de répondre à ces questions.
Il est donnée par la formule :
R
2adj= 1 − n − 1
n − p (1 − R
2)
1.3. Sélection du modèle final 21
Critère d’Information d’Akaiké
Le critère d’Information d’Akaiké (en anglais Akaiké information criterion AIC) mesure la qualité d’un modèle statistique proposé par Hirotugu Akaike en 1973. L’AIC permet de pénaliser les modèles en fonction du nombre de paramètres afin de satisfaire le critère de parcimonie [2]. On choisit alors le modèle avec l’AIC le plus faible c’est à dire :
M
AIC= arg min
M
AIC(M )
Il est meilleur que le coefficient de détermination et se détermine par la formule sui- vante :
AIC = −2 ln(L) + 2K L : le maximum de la fonction de vraisemblance du modèle.
K : le nombre de paramètres à estimer par le modèle.
Critère d’information bayésien
Le critère d’information bayésien (en anglais bayesian information criterion BIC) est un critère d’information dérivé du AIC , proposé par Gideon Schwarz en 1978. Il cherche à sélectionner le modèle M
iqui maximise la probabilité a posteriori P (M
k/X ) :
M
BIC= arg max
Mk
P (M
k/X ) D’après la formule de bayes :
P (M
k/X) = P (X/M
k)P (M
k) P (X)
Avec, les probabilités a priori P (M
k) sont supposées égales ∀ k=1,...,K. Mais, aucun modèle n’est privilégié.
P (X/M
k) est appelée vraisemblance intégrée pour le modèle M
kcalculée par l’ap-
proximation de Laplace. Il pénalise les modèles en fonction du nombre de paramètres
mais aussi en fonction de la taille de l’échantillon n .
1.4. Adéquation du modèle final 22
le critère BIC s’écrit comme suit :
BIC = −2 ln(L) + K ln(n) L : le maximum de la fonction de vraisemblance du modèle.
K : le nombre de paramètres à estimer par le modèle.
n : la taille de l’échantillon.
Le choix du modèle, d’aprés ce critère, correspond à la plus faible valeur de BIC : M
BIC= arg min
M
BIC (M)
En comparant les critères AIC et BIC, on peut conclure que le critère BIC sélectionne des modèles de dimensions plus petites que le critère AIC. Ce qui est logique puisque BIC pénalise plus qu’AIC (dès que n>7). On préfère le critère BIC que AIC lorsque la taille de l’échantillon est très grande [5].
1.3.2 Méthode Pas à Pas Ascendante
Le principe de cette méthode est de partir du modèle vide et rajouter variable par variable au modèle. On s’arrête dès qu’aucune des variables encore introduites n’est jugée significative. Son inconvénient est que l’introduction des variables se fait arbitrairement par manque de règle à suivre [2].
1.4 Adéquation du modèle final
La validation du modèle est un processus dans lequel les résidus vérifient les hypothèses suivantes :
1.4.1 Indépendance des erreurs aléatoires
L’indépendance est très difficile à tester de manière formelle. Cette hypothèse est
généralement supposée a priori. Le test de Durbin Watson le plus souvent avancé et plus
1.5. Problème de la multi-colinéarité 23
souvent utilisé.
1.4.2 Normalité des erreurs aléatoires
Cette hypothèse est peut être vérifiée en comparant la distribution empirique des résidus prédits à la distribution théorique des résidus. Ceci est possible par le graphique des quantile-quantile ou par des tests spécifiques.
1.4.3 Homoscédasticité
La validation d’égalité des variances des résidus se fait via le graphe des résidus.
Pour vérifier que la variance de la variable dépendante est constante, on s’appuie sur le graphique des résidus versus les prédictions :
- Si la variance est constante, les observations se dispersent autour d’une droite hori- zontale passant par la valeur 0, formant une bande horizontale dans l’intervalle [-2,+2].
-Si le nuage de points forme un entonnoir ouvert vers la droite ceci indique que la variance de la variable dépendante est plus importante pour des grandes valeurs.
-Si le nuage de points forme un entonnoir ouvert vers la gauche ceci indique que la variance de la variable dépendante est plus importante pour des petites valeurs. Dans les deux cas la variance de la variable dépendante n’est pas constante.
1.5 Problème de la multi-colinéarité
1.5.1 Qu’est ce qu’une multi-colinéarité ?
Lors de la modélisation, on peut rencontrer un problème dit ’multi-colinéarité’. On dit que des variables sont multi-colinéaires s’il existe une corrélation linaire parfaite entre certaines variables explicatives. Soient trois variables X
1, X
2, X
3, il existe multicolinéarité si on peut écrire une en fonction de deux autres comme suit :
X
1= aX
2+ bX
31.5. Problème de la multi-colinéarité 24
a et b sont constantes réelles.
La présence de multi-colinéarité dans les données, si elle n’est pas traitée correctement, peut être responsable de plusieurs problèmes, à savoir :
- Intervalles de confiance trop larges autour des paramètres estimés par un modèle.
- Aussi, la multi-colinéarité prononcée s’avère problématique, car elle peut augmenter la variance des coefficients de régression et les rendre instables et difficiles à interpréter.
Les conséquences de coefficients instables peuvent être les suivantes :
1. Les coefficients peuvent sembler non significatifs, même lorsqu’une relation signifi- cative existe entre la variable explicative Xj et la variable à expliquer Y.
2. Les coefficients des variables explicatives Xj fortement corrélées varieront considé- rablement d’un échantillon à un autre.
3. Lorsque des variables explicatives d’un modèle sont fortement corrélées, la suppres- sion de l’une de ces variables aura une incidence considérable sur les coefficients estimés des autres variables explicatives. Les coefficients des variables explicatives fortement cor- rélées peuvent même présenter le mauvais signe.
La multi-colinéarité peut fausser complètement l’interprétation des coefficients de la régression, il faut donc détecter et le traiter.
1.5.2 Détection du problème
Il y a plusieurs critères pour détecter la multi-colinéarité [15], [16] :
Règle de Klein :
Le principe de ce critère test est basé sur la comparaison du coefficient de détermi- nation R
2, et sur le coefficient de corrélation partiel r
XjXk,Xlcorrespondent aux variables explicatives X
jet X
kà partir du troisième X
ltel que :
R
2: le coefficient de détermination du modèle calculer à partir de p-variables explicatives,
1.5. Problème de la multi-colinéarité 25
il déjà défini (voir la page 20), et le coefficient de corrélation partiel est donnée par : r
X1X2,X3= r
X1X2− r
X1X3.r
X2X3p 1 − r
2X1X3p
1 − r
2X2X3(1.3)
avec, r ∈ [−1, 1] .
-Si le coefficient de détermination est supérieur à chaque coefficient de corrélation partiel, on peut conclure qu’il y a pas de multi-colinéarité, et on peut l’écrire :
-Il existe au moins deux variables X
ijet X
ikà partir du troisième X
iltell que : r
XjXk,Xl> R
2, dans ce cas on dit qu’il y a un problème de multi-colinéarité entre les variable du modèle.
Critère de tolérance
La tolérance est le complément du coefficient de détermination à 1 (1 − R
2) . Elle est utilisé dans plusieurs méthodes comme un critère de filtrage des variables.
-Si la tolérance est très faible donc il y a une multi-colinéarité forte,
-Si la tolérance vaut la valeur "1", on dit que l’absence totale de la multi-colinéarité.
Critère de Variance Inflation Factors
Le (VIF) est défini par :
V IF (X
j) = 1
1 − R
j2(1.4)
où, (1 − R
j2) est la tolérance, le R
j2est le coefficient de détermination de la régression correspondant à lA j ème variable explicative.
Le coefficient R
j2étant toujours strictement inférieur à 1 lorsque X est de plein rang. On conclut généralement à un problème de multicolinéarité pour X
jsi V IF (X
j) > 5 , ou de manière équivalente si R
j2> 0.8 .
Si par exemple la tolérance=0.1, et par conséquent V IF = 10 , il y a donc un problème
sérieux probablement que les corrélations entre 2 variables explicatives est élevée.
1.5. Problème de la multi-colinéarité 26
1.5.3 Comment traiter un problème de multicolinéarité ?
Pour remédier au problème de multi-colinéarité, comme les variables fournissant des informations redondantes, leur retrait ne réduit souvent pas radicalement le R
2.
-Si vous ajustez des valeurs polynomiales, soustrayez la moyenne des valeurs de la variables explicative.
-Utiliser la méthode de l’ACP (Analyse des Composant Principale : C
i), le faire d’une ACP des variables explicatives retenir quelques composantes principales et refaire un nouveau modèle avec ces composantes au lieu de travaille avec X
i, on travailler avec C
i, c’est une méthode rapide, efficace et optimale pour un critère de minimisation des covariances bien maîtrisé.
Son utilisation est recommandée dans le cas où un grand nombre des variables explicatives est utilisé, ou lorsqu’il y a de forte colinéarité entre les variables.
Le principe de cette méthode est de créer à partir d’un tableau de n observation décrit par p-variables, un ensemble de h composantes (h < p) . La méthode de construction des composantes diffère de celle de l’ACP, et présente l’avantage de bien s’accommoder de la présence de données manquantes. La détermination du nombre des composants à retenir est, en générale, fondée sur un critère mettant en jeu une validation croisé, l’utilisateur peut aussi fixer lui même la composante à retenir.
ACP et PLS sont des méthodes réduisent le nombre de prédicteurs jusqu’à obtenir un
ensemble plus restreint de composantes non corrélées [18].
Chapitre 2
Cadre théorique de la régression logistique
Introduction
Dans ce chapitre, on examine la cadre théorique de la régression logistique qui a pour objectif de modéliser la probabilité de survenue d’un événement en fonction de certaines variables explicatives. Il s’agit dans ce chapitre, de traiter uniquement le cas où la variable réponse est de type binaire (Oui|Non).
2.1 Spécification du modèle logistique
Soit la variable dépendente Y
ibinaire codée de la manière suivante :
y
i=
1 si survenue de l’évènement étudié
0 sinon (2.1)
La survenue de l’évènement est caractérisée par une variable aléatoire Bernoulli Y de paramètre P.
27
2.1. Spécification du modèle logistique 28
On a donc : y
i=
1 survient avec une probabilité P
i= P rob(y
i= 1) 0 survient avec une probabilité 1 − P
i= P rob(y
i= 0)
(2.2) on dispose de p-variables potentiellement explicatives X
1, X
2, ..., X
pde la variable Y.
Elles peuvent être quantitatives ou qualitatives. On note x
ijla valeur prise par la j- ème variable explicative X sur l’unité statistique "i" de la population étudiée. On a alors : x
i= (x
i1, x
i2, ..., x
ip)
0; le vecteur colonnes des p-valeurs prises par les variables explicatives sur l’unité statistique "i".
Les x
ijsont supposées non aléatoires.
2.1.1 Hypothèses du modèle logistique
La régression de Y par rapport à X est l’espérance mathématique de Y conditionnelle à X : E(Y/X) = 1.P + 0.(1-P) = P
Par conséquent, les hypothèses du modèle portent sur les distributions de Y
isachant X
i(i=1...n). Les variables Y
isont indépendantes entre elles et suivent la loi Bernoulli de paramètre P
i:
P
i= E(Y
i/X
i) = P (Y
i= 1/X
i) = e
x0iβ1 + e
x0iβ(2.3)
Avec β sont les paramètres inconnus du modèle.
La probabilité de survenue de l’évènement est une fonction logistique qui est définie dans l’intervalle [0,1] pour toute valeur réelle X.
La relation entre la probabilité de survenue de l’évènement et X, exige la transformation Logit définie par :
Logit(P
i) = log( P
i1 − P
i) = β
0+ β
1x
i1+ β
2x
i2+ ... + β
px
ip(2.4)
2.1.2 Interprétation des paramètres
Les coefficients estimés ne sont pas directement interprétantes.
Nous avons représenté sur la Figure 2.1 l’allure de la courbe représentative de la
fonction x 7−→
1+eexβxβpour différentes valeurs du paramètre β . On remarque que pour des
2.1. Spécification du modèle logistique 29
faibles valeurs de β on a une large plage de valeurs de x pour lesquelles la fonction se situe aux alentours de 0.5 (la fonction est même constante (0.5) dans le cas extrême β =0).
Figure 2.1 – P
β(Y = 1|X = x) pour différentes valeurs de β .
Pour ces valeurs P
β(x) = P
β(Y = 1|X = x) sera proche de 0.5 et on peut donc penser qu’il sera difficile de discriminer.
Lorsque β augmente, l’intervalle où la fonction est proche de 0.5 diminue et la fonction est proche de 0 ou 1 pour un grand nombre de valeurs de X. Plus β est grand, mieux on discrimine. Cependant une telle interprétation dépend des valeurs de X. C’est pourquoi en général l’interprétation des coefficients β s’effectue en termes d’odds ratio.
Odds Ratio
L’odds ratio (noté OR ) est l’outil qui nous permet l’interprétation facile et logique des résultats d’une régression logistique.
Définition 2.1. L’odds ratio (Rapport des chances) est le rapport de deux odds associés
2.1. Spécification du modèle logistique 30
à deux valeurs différentes de X (quantitative) respectivement x et t avec x=t+1
odds(x) = P (x) 1 − P (x)
odds(t) = P (t) 1 − P (t) où
P (x) = P (Y = 1|X = x) = e
xβ1 + e
xβet
P (t) = P (Y = 1|X = t) = e
tβ1 + e
tβL’odds ratio est défini par :
OR(x, t) = odds(x) odds(t) =
P (x) 1 − P (x)
P (t) 1 − P (t) et on note OR(x, t) par OR
x/tSi la variable explicative X est quantitative, on obtient en posant x = t + 1 et en fixant les autres variables :
OR
x/t=
P (Y
i= 1/X
i= x) 1 − P (Y
i= 1/X
i= x)
P (Y
i= 1/X
i= t) 1 − P (Y
i= 1/X
i= t)
On trouve OR = e
βDémonstration.
OR
x/t=
e
β0+β1x(1 + e
β0+β1x) 1 + e
β0+β1xe
β0+β1t(1 + e
β0+β1t)
1 + e
β0+β1t= e
β0+β1xe
β0+β1t= e
β0+β1(t+1)e
β0+β1t= e
β12.1. Spécification du modèle logistique 31
car,
1 − P (Y
i= 1/X
i= x) = 1 − e
β0+β1x1 + e
β0+β1x= 1 + e
β0+β1x− e
β0+β1x1 + e
β0+β1x= 1
1 + e
β0+β1xdonc :
1
1 − P (Y
i= 1/X
i= x) = 1 + e
β0+β1x(2.5)
Si la variable explicative X est qualitative binaire, l’OR permet de comparer les odds de deux modalités de cette variable. Pour l’individu statistique i, on a :
OR
1/0=
P (Y
i= 1/X
i= 1) 1 − P (Y
i= 1/X
i= 1)
P (Y
i= 1/X
i= 0) 1 − P (Y
i= 1/X
i= 0)
Ici OR
1/0représente le rapport de cote du risque de la survenue de l’évènement chez les individus statistiques exposés (X
i= 1) par rapport aux individus statistiques non exposés (X
i= 0) , toutes choses égales par ailleurs. Les valeurs des OR sont interprétées de la façon suivante :
-Pour la variable quantitative :
Le logarithme népérien de la probabilité de survenue d’un évènement augmente de β ˆ pour chaque unité supplémentaire de X.
X est considérée comme facteur favorisant du risque lorsque son Odds Ratio est supérieur à 1.
X est considérée comme facteur handicapant la survenue de l’évènement lorsque son Odds Ratio est inférieur à 1.
X est considérée sans effet sur la survenue de l’évènement lorsque son Odds Ratio est égale à 1.
-Pour la variable qualitative binaire :
Si OR>1 , le risque de survenue de l’évènement (Y
i= 1) chez les individus exposés
(X
ij= 1) est plus élevé que le risque de la survenue de l’évènement (Y
i= 1) chez les
2.1. Spécification du modèle logistique 32
individus statistiques non-exposés (X
ij= 0) , toutes choses égales par ailleurs. Dans ce cas on appelle la variable explicative X
ijfacteur favorisant .
Si OR=1 , le risque de survenue de l’évènement (Y
i= 1) chez les individus statistiques exposés (X
ij= 1) est égale au risque de la survenue de l’évènement (Y
i= 1) chez les individus non-exposés (X
ij= 0) , toutes choses égales par ailleurs. X est considérée sans effet sur la survenue de l’évènement lorsque son Odds Ratio est égale à 1.
Si OR<1 , le risque de survenue de l’évènement (Y
i= 1) chez les individus exposés (X
ij= 1) est plus faible que le risque de la survenue de l’évènement (Y
i= 1) chez les individus statistiques non-exposés (X
ij= 0) , toutes choses égales par ailleurs. Dans ce cas, on appelle la variable explicative X
ijfacteur handicapant ou freinant .
Intervalles de confiance de l’OR :
Lorsque la taille de l’échantillon est suffisamment grande, l’estimateur du maximum de vraisemblance (E.M.V) est asymptotiquement normale, cela implique que chaque compo- sant de vecteur (chaque β
j) suit la loi normale asymptotiquement β ˆ
jN (β
j, V ( ˆ β
j)), ∀j = 1, ..., p . Ceci permet de calculer les intervalles de confiances pour les coefficients estimés :
IC
βj=
β ˆ
j− |z
1−α2
|.
q V ˆ ( ˆ β
j) , β ˆ
j+ |z
1−α2
|.
q V ˆ ( ˆ β
j)
où, z
1−α2
est le fractile d’ordre (
α2) de la loi normale N (0, 1) .
Et comme l’OR est l’exponentielle de β
j, alors l’intervalle de confiance de OR est donné par :
IC
OR=
e
βˆj−|z1−α2|.√
Vˆ( ˆβj), e
βˆj+|z1−α2|.√
Vˆ( ˆβj)Si on test :
H
0: OR = 1 H
1: OR 6= 1
On dit que l’OR est statistiquement significatif au seuil α si la valeur 1 n’appartient pas
à l’IC trouvé.
2.2. Estimation des paramètres du modèle logistique 33
2.2 Estimation des paramètres du modèle logistique
On ne peut pas estimer les paramètres du modèle logistique par la méthode des moindres carrés ordinaires comme dans le modèle linéaire pour plusieurs raisons [6] :
Premièrement , parce que la variable Y
iest de type qualitative. Ainsi, le premier problème de l’application du modèle linéaire à une variable dichotomique, est que le paramètre β du modèle n’est pas ’interprétable’.
Deuxièmement , une étude graphique montre que l’approximation linéaire est peu adaptée au problème posé. Considérons pour cela le modèle linéaire avec une seule variable explicative α , notée x
i1, et une constante. On pose β = (β
0, β
1)
0et l’on considère le modèle linéaire suivant :
y
i= x
i1β
1+ ε
i, ∀i = 1, ..., N
Pour constater l’inadéquation de ce modèle à reproduire correctement la variable en-
dogène dichotomique y
i, il suffit de se placer dans un repère (x
1, y) et de reproduire les N
différents couples (x
i1, y
i) , ∀ i= 1,.., N. Naturellement, du fait du statut dichotomique de
la variable endogène, le nuage de points ainsi obtenu se situe soit sur la droite y = 0 , soit
sur la parallèle y = 1 (figure 2.2), pour cela on prend un petit exemple illustratif [20] :
On dispose la valeur de taille exprimée en centimètres (quantitative) et le groupe des
individus "connus" (binaire). On va essayer de prédire la valeur du groupe à partir d’une
seule variable taille , on a les données suivantes :
2.2. Estimation des paramètres du modèle logistique 34
taille grp taille grp taille grp
130 0 161 1 170 1
140 0 136 0 168 1
162 0 180 1 175 1
160 1 190 1 181 1
136 0 132 0 173 1
165 1 141 1 169 1
130 0 165 1 178 1
135 0 168 1 179 1
140 0 182 1 175 1
135 0 177 1 164 1
En utilise Logiciel R pour déterminer la représentation graphique correspondante à ces données :
Figure 2.2 – Régression linéaire pour données qualitatives, avec K=1
Ainsi, comme on l’observe sur la figure ci-dessus, il est impossible d’ajuster de façon
2.2. Estimation des paramètres du modèle logistique 35
satisfaisante, par une seule droite, le nuage de points, associé à une variable dichotomique qui, par nature, est réparti sur deux droites parallèles.
Troisièmement , la spécification linéaire standard ne convient pas aux variables di- chotomiques, et plus généralement aux variables qualitatives, car elle pose un certain nombre de problèmes mathématiques.
Sachant que dans le cas d’une variable endogène Y
idichotomique, la spécification linéaire (1.1) implique que la perturbation ε
ine peut prendre, elle aussi, que 2 valeurs, condition- nellement au vecteur x
i:
ε
i=
1 − x
0iβ, avec une probabilité x
0iβ
−x
0iβ, avec une probabilité 1 − x
0iβ
Ce qui est trop éloigner des hypothèses usuelles de continuité et de normalité des résidus, par ailleur l’estimation de β ˆ n’est plus efficace.
E(Y
i) = x
0iβ dans le modèle linéaire, et comme Y
isuite une loi de Bernoulli de paramètre p
iet d’espérance E(Y
i) = p
i, il en découle que p
i= x
0iβ , or rien n’indique que x
0iβ sera compris entre "0" et "1".
La méthode la plus adéquate pour estimer les paramètres β est la méthode du maxi- mum de vraisemblance pour la régression logistique.
La fonction de vraisemblance est définie comme la probabilité d’observer le n-échantillon Y
isachant X
i.
Définition 2.2. [12] On appelle fonction de vraisemblance de β pour une réalisation (x
1, ..., x
n) d’un échantillon, la fonction de β :
L(β) = L(x
1, x
2, ..., x
n, β) =
n
Y
i=1
f (x
i, β)
L(β) =
n
Y
i=1
P
β(Y = y
i|X = x
i)
=
n
Y
i=1
[(P
β(x
i))
yi× (1 − P
β(x
i))
1−yi]
Ensuite, pour faciliter la solution du problème de maximisation on calcule le logarithme
de la fonction de vraisemblance (la maximisation de la fonction de vraisemblance ou la
2.2. Estimation des paramètres du modèle logistique 36
maximisation de son logarithme est identique) l(β) = Log(L(β))
= Log
n
Y
i=1
P
β(Y = y
i|X = x
i)
!
=
n
X
i=1
Log((P
β(x
i))
yi× (1 − P
β(x
i))
1−yi)
=
n
X
i=1
[y
iLog(P
β(x
i)) + (1 − y
i)Log(1 − P
β(x
i))]
=
n
X
i=1
[y
iLog(P
β(x
i)) + Log(1 − P
β(x
i)) − y
iLog(1 − P
β(x
i))]
=
n
X
i=1
y
iLog
P
β(x
i) 1 − P
β(x
i)
+ Log(1 − P
β(x
i))
=
n
X
i=1
[y
iLogit(P
β(x
i)) + Log(1 − P
β(x
i))]
=
n
X
i=1
y
ix
0iβ + Log
1 − e
x0iβ1 + e
x0iβ=
n
X
i=1
y
ix
0iβ + Log
1 1 + e
x0iβet donc on a le résultat suivant : l(β) =
n
X
i=1
h
y
ix
0iβ − Log(1 + e
x0iβ) i Le vecteur gradient au point β défini par :
∇l(β) = ∂l
∂β
0(β), ..., ∂l
∂β
p(β)
0La composante j (j=1...p) de ce vecteur s’écrit :
∂l
∂β
j(β) =
n
X
i=1
y
ix
ij− x
ije
x0iβ1 + e
x0iβ=
n
X
i=1
[x
ij(y
i− P
β(x
i))]
Ce qui donne en écriture matricielle :
∇l(β) =
n
X
i=1
[x
ij(y
i− P
β(x
i))]
et on note :
∇l(β) = X
0(Y − P
β)
2.2. Estimation des paramètres du modèle logistique 37
où : Y = (y
1...y
n)
0et P
β= (p
β(x
1)...p
β(x
n))
0. L’estimateur de maximum de vraisemblance (s’il existe) est la solution de l’équation (appelée équation du score) :
S(β) = ∇l(β) = X
0(Y − P
β) = 0 (2.6) Si cette équation admet une solution en β notée g(y
1, ..., y
n) , et que cette solution est un maximum de l(β) , alors l’estimateur de maximum de vraisemblance est données par : β
0= g(Y
1, ..., Y
n) .
Trouver explicitement β ˆ n’est pas possible. En effet, l’équation (2.12) se réécrit :
x
11y
1+ ... + x
n1y
n= x
11 e(β1x11+...+βpx1p)1+e(β1x11+...+βpx1p)
+ ... + x
n1 e(β1xn1+...+βpxnp)1+e(β1xn1+...+βpxnp)
. . .
x
1py
1+ ... + x
npy
n= x
1p e(β1x11+...+βpx1p)1+e(β1x11+...+βpx1p)
+ ... + x
np e(β1xn1+...+βpxnp)1+e(β1xn1+...+βpxnp)
Ce système (qui n’est pas linéaire en β ) n’admet pas la solution analytique, on a donc recours à des algorithmes numériques qui nécessitent de connaître d’éventuelles propriétés sur la régularité de la fonction à optimiser (en terme de convexité par exemple).
2.2.1 Algorithme de Newton-Raphson
La méthode de Newton-Raphson permet une résolution numérique des équations du score [14]. Pour simplifier les notations, nous supposons que β est univarié. On part tout d’abord d’une valeur initiale arbitraire de β , notée β
0et on désigne par :
β
1= β
0+ h
une valeur candidate pour être solution de S(β) = 0 , c’est-à-dire S(β
0+ h) = 0 . Par un développement limité à l’ordre un de la fonction S, on obtient l’approximation suivante :
S(β
0+ h) ' S(β
0) + hS
0(β
0) comme S(β
0+ h) = 0 , on obtient pour la valeur suivante :
h = −[S
0(β
0)]
−1S(β
0) et donc
β
1= β
0− [S
0(β
0)]
−1S(β
0)
2.2. Estimation des paramètres du modèle logistique 38
Dans le cas qui nous concerne β ∈ R
pet S(β) = ∇l(β) , la formule de récurrence se traduit par :
β
1= β
0− [∇
2l(β
0)]
−1∇l(β
0)
où, ∇
2l(β
0) désigne la matrice hessienne de log-vraisemblance au point β
0∇
2l(β
0)
kl=
∂
2l
∂β
k∂β
l(β
0)
, 0 ≤ k, l ≤ p où, nous commettons toujours l’abus de désigne par :
∇
2l(β
0)
kl, le terme de la (k + 1)
èmeligne et (l + 1)
èmecolonne de ∇
2l(β
0) , le processus est ensuite itéré jusqu’à convergence, il se résume de la manière suivante :
1.Choix d’un point de départ β
0, 2.On construit β
k+1à partir de β
k.
β
k+1= β
k+ A
k∇l(β
k)
où, ∇l(β
k) est le gradient au point β
k, et A
k= −[∇
2l(β
0)]
−1est la matrice de "pas" de l’algorithme (l’inverse de la matrice hessienne de l au point β
k)
Calcul des estimateurs
Calculons la matrice hessienne ∇
2l(β) = h
∂2l
∂βk∂βl
(β) i
0≤k,l≤p
:
∂
2l
∂β
k∂β
l(β) = ∂
∂β
k"
nX
i=1
y
ix
il− x
ile
x0iβ1 + e
x0iβ#
= (x
ilx
ike
x0iβ)(1 + e
x0iβ) − (x
ike
x0iβ)(x
ile
x0iβ) (1 + e
x0iβ)
2= −
n
X
i=1
x
ikx
ile
x0iβ(1 + e
x0iβ)
2= −
n
X
i=1
x
ikx
ilP
β(x
i)(1 − P
β(x
i)) en écriture matricielle nous obtenons :
∇
2l(β) = −
n
X
i=1