Méthodes de régression robuste

(1)

Méthodes de régression robuste

par

Joanie Simard

Mémoire présenté au Département de mathématiques

en vue de l'obtention du grade de maître ès sciences (M.Sc.)

FACULTÉ DES SCIENCES

UNIVERSITÉ DE SHERBROOKE

(2)

Le 20 mars 2018,

le jury a accepté le mémoire de Madame Joanie Simard dans sa version nale.

Membres du jury

Professeur Taouk Bouezmarni Directeur de recherche Département de mathématiques

Professeur Patrick Richard Membre externe Département d'économie

Professeur Bernard Colin Président-rapporteur Département de mathématiques

(3)

REMERCIEMENTS

Je tiens d'abord à remercier mon directeur de maîtrise, M. Bouezmarni, pour l'aide ap-portée durant ces dernières années et pour sa grande compréhension, ce qui m'a permis de concilier travail et étude. Mention spéciale à sa bonne humeur à chacune de nos ren-contres, même avec une mauvaise grippe, il avait toujours un sourire au visage. Je tiens aussi à remercier M. Pomar, chercheur scientique au Centre de recherche et de dévelop-pement sur le bovin laitier et le porc, pour m'avoir donné la chance de collaborer à son projet sur les porcs et de m'avoir fournis les données d'une de ses expériences. J'aime-rais aussi remercier mes parents de m'avoir toujours soutenu et encouragé à poursuivre mes études, malgré les 702 km qui me séparent d'eux. J'aimerais terminer en remerciant également mon amoureux ♥ qui me supporte depuis le tout début de cette maîtrise.

Joanie Simard Sherbrooke, mars 2018

(4)

TABLE DES MATIÈRES

REMERCIEMENTS iv

TABLE DES MATIÈRES v

LISTE DES FIGURES viii

INTRODUCTION 1

CHAPITRE 1 Régression multiple avec estimateur non robuste 5

1.1 Régression linéaire multiple . . . 5

1.2 Estimation des paramètres β par la méthode des MCO . . . . 7

1.2.1 Propriétés de l'estimateur obtenu par la méthode des MCO . . . . 10

1.3Point de rupture et ecacité relative d'un estimateur . . . 14

1.3.1 Point de rupture . . . 14

1.3.2 Ecacité relative . . . 15

1.3.3 Exemple . . . 16 v

(5)

CHAPITRE 2 Régression multiple avec estimateur robuste 18

2.1 M-estimation des paramètres du modèle . . . 18

2.1.1 Propriétés d'un M-estimateur des paramètres du modèle . . . 28

2.2 S-estimation des paramètres du modèle . . . 31

2.2.1 Propriétés des S-estimateurs . . . 35

2.3 MM-estimation des paramètres du modèle . . . 39

2.3.1 Propriétés des MM-estimateurs . . . 42

2.4 Régressions quantiles . . . 43

2.4.1 Estimation des paramètres β avec la régression quantile . . . . 44

2.4.2 Propriétés des estimateurs des régressions quantiles . . . 47

CHAPITRE 3 M-estimation et régression quantile avec les copules 51 3.1 Introduction aux copules . . . 52

3.1.1 Dénition d'une copule . . . 52

3.1.2 Copules usuelles . . . 53

3.1.3 Copules elliptiques . . . 54

3.1.4 Copules Archimédiennes . . . 57

3.1.5 Propriétés des copules . . . 60

3.2 Estimation d'une fonction copule . . . 64

3.2.1 Estimation paramétrique d'une fonction copule . . . 64

3.2.2 Estimation semi-paramétrique d'une fonction copule . . . 67 vi

(6)

3.2.3 Estimation non paramétrique d'une fonction copule . . . 68

3.3 Estimation de la densité de la copule . . . 72

3.3.1 Méthode de l'image miroir . . . 72

3.3.2 Méthode à noyau bêta . . . 73

3.3.3 Estimateur de Bernstein . . . 74

3.4 Modélisation avec les copules . . . 75

3.4.1 Régression quantile avec les copules . . . 76

3.4.2 M-estimation avec les copules . . . 77

CHAPITRE 4 Simulations et applications 80 4.1 Simulation avec données aberrantes . . . 83

4.2 Applications . . . 95

CONCLUSION 100

BIBLIOGRAPHIE 102

(7)

LISTE DES FIGURES

1 PV (en kg) selon PA (en kg) pour les TAG 19 et TAG 55. . . 2

2 PA (en kg) selon le jour pour les TAG 19 et TAG 55. . . 2

1.1 Simulation de données avec l'insertion d'un point arbitrairement loin de cet échantillon (graphique de droite) pour illustrer le point de rupture de l'estimateur des MCO. . . 15

1.2 Modélisation sans et avec une donnée aberrante . . . 16

1.3 Modélisation avec 10% et 20% de données aberrantes . . . 17

2.1 Fonction de Huber utilisant un paramètre c=1.345. . . 20

2.2 Fonction de Tukey's Biweight utilisant un paramètre c=4.685. . . 21

2.3 Inuence des points verticaux et d'un point de levier sur la M-estimation. 29 2.4 Fonctions ρτ avec diérentes valeurs de τ. . . . 45

(8)

2.5 Inuence de points verticaux et d'un point de levier sur les régressions

quantiles . . . 50

3.1 Densité de la copule Gaussienne avec ρ = 0.5. . . . 55

3.2 Densité de la copule de Student avec ρ = 0.75 et k = 4. . . . 57

3.3 Densité de la copule de Clayton avec ρ = 0.7. . . . 58

3.4 Densité de la copule de Frank avec θ = 3. . . . 59

4.1 Modèle 1 . . . 84

4.2 Modèle 2 . . . 84

4.3 Modèle 3 . . . 84

4.4 Modèle 4 . . . 84

4.5 Modélisation linéaire (sans le processus de retrait) basée sur la distribution empirique (vert), la méthode à noyau classique (rouge), la MM-estimation (bleu) et l'estimation par les MCO (noir). . . 85

4.6 Modélisation linéaire (sans le processus de retrait) basée sur la régression quantile avec τ = 0.5 (vert), τ = 0.75 (rouge), τ = 0.9 (bleu). . . . 85

4.7 Modélisation linéaire (sans le processus de retrait) basée sur la régression quantile avec τ = 0.5 (vert), τ = 0.75 (rouge), τ = 0.9 (bleu). . . . 86

4.8 Modélisation linéaire (avec le processus de retrait) basée sur la distribution empirique (vert), la méthode à noyau classique (rouge), la MM-estimation (bleu) et l'estimation par les MCO (sans le processus de retrait) (noir). . 87

(9)

4.9 Modélisation linéaire (avec le processus de retrait) basée sur la régression quantile avec τ = 0.5 (vert), τ = 0.75 (rouge), τ = 0.9 (bleu). . . . 87

4.10 Modélisation linéaire (avec le processus de retrait) basée sur la régression quantile avec τ = 0.5 (vert), τ = 0.75 (rouge), τ = 0.9 (bleu). . . . 88

4.11 Modélisation quadratique (avec le processus de retrait) basée sur la dis-tribution empirique (vert), la méthode à noyau classique (rouge), la MM-estimation (bleu) et l'MM-estimation par les MCO (sans le processus de retrait) (noir). . . 89

4.12 Modélisation quadratique(avec le processus de retrait) basée sur la régres-sion quantile avec τ = 0.5 (vert), τ = 0.75 (rouge), τ = 0.9 (bleu). . . . . 89

4.13 Modélisation quadratique (avec le processus de retrait) basée sur la régres-sion quantile avec τ = 0.5 (vert), τ = 0.75 (rouge), τ = 0.9 (bleu). . . . . 90

4.14 Modélisation cubique (avec le processus de retrait) basée sur la distribution empirique (vert), la méthode à noyau classique (rouge), la MM-estimation (bleu) et l'estimation par les MCO (sans le processus de retrait) (noir). . 90

4.15 Modélisation cubique (avec le processus de retrait) basée sur la régression quantile avec τ = 0.5 (vert), τ = 0.75 (rouge), τ = 0.9 (bleu). . . . 91

4.16 Modélisation cubique (avec le processus de retrait) basée sur la régression quantile avec τ = 0.5 (vert), τ = 0.75 (rouge), τ = 0.9 (bleu). . . . 91

4.17 Modélisation logarithmique (avec le processus de retrait) basée sur la dis-tribution empirique (vert), la méthode à noyau classique (rouge), la MM-estimation (bleu) et l'MM-estimation par les MCO (sans le processus de retrait) (noir). . . 92

(10)

4.18 Modélisation logarithmique (avec le processus de retrait) basée sur la ré-gression quantile avec τ = 0.5 (vert), τ = 0.75 (rouge), τ = 0.9 (bleu). . . 92 4.19 Modélisation logarithmique (avec le processus de retrait) basée sur la

ré-gression quantile avec τ = 0.5 (vert), τ = 0.75 (rouge), τ = 0.9 (bleu). . . 93 4.20 RMSE moyen pour 500 simulations avec MM-estimation et M-estimation

(utilisant les copules) pour chaque modèle. . . 94 4.21 RMSE moyen pour 500 simulations avec régression quantile (utilisant les

copules et τ = 0.5) pour chaque modèle. . . . 94 4.22 RMSE de chaque modélisation avec MM-estimation et M-estimation

(uti-lisant les copules) pour les trois porcs. . . 96 4.23RMSE de chaque modélisation avec régression quantile (utilisant les

co-pules et τ = 0.5) pour les trois porcs. . . . 96 4.24 Modélisation (avec le processus de retrait) basée sur la distribution

em-pirique (vert), la méthode à noyau classique (rouge), la MM-estimation (bleu) et l'estimation par les MCO (sans le processus de retrait) (noir). . 97 4.25 Modélisation (avec le processus de retrait) basée sur la régression quantile

avec τ = 0.5 (vert), τ = 0.75 (rouge), τ = 0.9 (bleu) . . . . 98 4.26 Modélisation (avec le processus de retrait) basée sur la régression quantile

avec τ = 0.5 (vert), τ = 0.75 (rouge), τ = 0.9 (bleu) . . . . 98

(11)

INTRODUCTION

L'alimentation de précision pour les porcs cherche à fournir à chaque animal un aliment dont la composition est ajustée aux besoins nutritionnels journaliers. Pour ce faire, au début de chaque journée, la consommation, le poids vif (PV) et le gain de poids sont estimés en fonction de l'historique de consommation et du poids. Nous avons donc besoin de mesures fréquentes, voir quotidiennes, de la consommation et de poids corporel par animal. Le nourrisseur développé à l'Université de Lleida, en Espagne, mesure la quantité d'aliments servis à chaque visite. Un système de pesée mesure la pression exercée sur les pattes avants (PA) lorsque l'animal se présente à la mangeoire. On s'est alors intéressé à la relation qui existait entre le poids aux pattes avant et le poids corporel au cours de la croissance des porcs.

Toutefois, en faisant une analyse plus approfondie des données récoltées après une pre-mière expérience sur le poids aux pattes avant versus le poids vif, nous avons trouvé un comportement problématique : à partir d'un certain âge et pour la majorité des porcs, certaines données semblent être aberrantes. Dans les graphiques ci-dessous, on retrouve la relation PV (en kilogramme) selon PA (en kilogramme) pour deux porcs de l'expérience (le porc portant le TAG 19 et le porc portant le TAG 55). Les points encerclés en rouge sont les valeurs qui nous semblent aberrantes.

(12)

(13)

Dans la littérature, les méthodes de régression robuste sont parmi plusieurs approches utilisées lorsqu'on est en présence de données aberrantes. Notamment, dans ce mémoire nous verrons quatre de ces méthodes : la régression avec M-estimation, la régression avec S-estimation, la régression avec MM-estimation et la régression quantile. Toutefois, pour pouvoir appliquer ces méthodes, il faut supposer que les données suivent le comporte-ment d'un modèle paramétrique. En regardant quelques représentations graphiques de la relation entre PA et le jour pour quelques animaux, on remarque que la relation entre ces deux variables pourrait être linéaire, quadratique ou cubique.

Figure 3 PA (en kg) selon le jour pour les TAG 4 et TAG 5.

Figure 4 PA (en kg) selon le jour pour les TAG 18 et TAG 92.

(14)

Il serait intéressant de développer des méthodes de régression robuste plus exible ou qui n'exige pas la supposition d'un modèle au départ pour pouvoir procéder à la modélisation. Ainsi, une partie de ce mémoire sera donc consacré à l'adaptation des méthodes de régression quantile et de régression par M-estimation aux copules. En eet, la copule est un outil permettant de caractériser la dépendance entre deux variables sans se préoccuper des lois marginales. L'introduction de la copule dans ces méthodes de régression nous donnera plus de exibilité pour la modélisation puisque l'estimation de la copule pourra se faire de façon paramétrique, semi-paramétrique et non paramétrique.

Ce mémoire sera principalement consacré à l'étude des méthodes de régression robustes et la dernière partie de celui ci sera dédiée à l'application de ces méthodes aux données obtenues de l'expérience sur les porcs. Le premier chapitre de ce mémoire rappellera quelques notions de la régression multiple. L'estimation par la méthode des moindres carrés ordinaires y sera présentée ainsi que la dénition de point de rupture et d'ecacité relative. Dans le deuxième chapitre, nous aborderons la notion de régression multiple ro-buste. Quelques méthodes seront étudiées, notamment la modélisation par M-estimation, par S-estimation, par MM-estimation et par les régressions quantiles. Le chapitre 3 sera consacré à une introduction à la notion de copule. Nous verrons également quelques mé-thodes d'estimation pour la fonction copule (qui est en fait une fonction de répartition) et sa densité. Dans la dernière section du chapitre, nous présenterons une adaptation de la régression quantile et de la modélisation par M-estimation avec les copules. Le dernier chapitre de ce mémoire sera consacré à la comparaison des méthodes de régression ro-bustes déjà existantes avec les deux méthodes de régression roro-bustes adaptées aux copules par le biais de simulations et d'applications.

(15)

CHAPITRE 1

Régression multiple avec estimateur

non robuste

Dans la première section de ce premier chapitre, on rappellera le concept de régression linéaire multiple. Par la suite, la deuxième section sera consacrée à la présentation d'une méthode très populaire pour l'estimation des paramètres de régression multiple : l'esti-mation par la méthode des moindres carrés ordinaires (MCO). On présentera également quelques propriétés des estimateurs obtenus par cette méthode. Finalement, dans la der-nière section de ce chapitre, on donnera les dénitions de point de rupture, d'ecacité relative ainsi que quelques exemples illustrant les limites de l'estimation par la méthode des MCO.

1.1 Régression linéaire multiple

La modélisation par régression linéaire multiple a pour but d'expliquer ou de prédire une variable réponse Y par une combinaison linéaire de plusieurs variables explicatives

(16)

X_j, j = 1, ..., p. Certaines variables X_j peuvent être des transformations des autres variables initialement utilisées dans le modèle pour prendre en considération les eets non linéaires d'une variable. Par exemple, si on désire prendre en considération un eet quadratique de la variable Xj, on pose Xj+1 = Xj2. Soit l'échantillon de n observations

où xi,j est la iieme observation de la variable Xj et yi est la iieme observation de la variable

Y. Soit _i, i = 1, ..., n, un bruit aléatoire, qui représentera le terme d'erreur lors de la modélisation. Le modèle de régression linéaire multiple prend alors la forme suivante :

y_i = β₀+ β₁x_i,1+ β₂x_i,2+ ... + β_px_i,p+ _i,

où βj, j = 0, ..., psont les paramètres à estimer du modèle et i, i = 1, ..., nsont les erreurs

issues de la modélisation. Dans le modèle de régression linéaire multiple, habituellement, on considère les hypothèses suivantes :

Hypothèses :

H₁ : Les variables X_j sont aléatoires ou xes. H₂ : E(_i) = 0 pour tout i = 1, ..., n.

H₃ : Var(_i) = σ2 pour tout i = 1, ..., n (homoscédasticité des erreurs). H₄ : Cov(_i, _j) = 0 i = j pour tout i, j = 1, ..., n.

H₅ : X_i et _i sont indépendantes, pour tout i = 1, ..., n.

H₆ : Pour l'inférence, on supposera que _i ∼ N(0, σ2), pour tout i = 1, ..., n.

Pour simplier les notations, nous utiliserons la notation matricielle. Le modèle de ré-6

(17)

gression linéaire avec notation matricielle prend alors la forme suivante :

Y = Xβ + , (1.2)

où

- Y = (y1, ..., yn)t est une matrice de dimension n × 1, c'est-à-dire, les valeurs issues

de la variable réponse.

- X est une matrice de dimension n × (p + 1) contenant les valeurs des variables Xj

X = ⎛ ⎜ ⎝ 1 x_1,1 · · · x1,p ... ... ··· ... 1 x_n,1 · · · xn,p ⎞ ⎟ ⎠ .

- β = (β0, ..., βp)t est un vecteur de (p + 1) paramètres inconnus de la régression.

- = (1, ..., n)test une matrice de dimension n×1 des erreurs du modèle de variance

constante et inconnue.

Pour trouver le meilleur modèle linéaire possible, on cherche à estimer les valeurs de β_j qui minimiseront les erreurs. Cette méthode, appelée méthode des moindres carrés ordinaires, sera présentée dans la section suivante.

1.2 Estimation des paramètres β par la méthode des

MCO

Pour estimer les paramètres du modèle (1.2), une méthode très utilisée est la méthode des moindres carrés ordinaires. Cette méthode consiste à minimiser l'erreur quadratique moyenne relative aux termes d'erreur du modèle. Posons A₂ la norme L2 d'un vecteur

(18)

A. On cherche alors à résoudre le problème d'optimisation suivant : ˆ β = argmin β n i=1 2_i (1.3) = argmin β [(Y − Xβ) t_{(Y − Xβ)]} = argmin β Y − Xβ 2 2. (1.4)

Remarque : Sous les hypothèses H4 et H6 du modèle (1.2), l'estimateur obtenu par les MCO est exactement l'estimateur obtenu par la méthode du maximum de vraisemblance. En eet, pour le modèle (1.2), avec les hypothèses H4 et H6, on a que :

Y − Xβ = ∼ N(0n×1,

_{= σ}₂

11n×n).

Ainsi, la vraisemblance est donnée par :

L(β) = n i=1 1 √ 2πσ2 exp −2 i 2σ2 = ₁ √ 2πσ2 n exp _n i=1 −2 i 2σ2 = ₁ √ 2πσ2 n exp −(Y − Xβ)t_{(Y − Xβ)} 2σ2 .

Il est alors évident que maximiser cette vraisemblance par rapport à β est équivalent à minimiser (Y − Xβ)t_{(Y − Xβ) par rapport à β. On se retrouve avec le problème de}

minimisation (1.3).

On peut réécrire (1.3) de la façon suivante :

ˆ β = argmin β [(Y − Xβ) t_{(Y − Xβ)]} = argmin β n i=1 (y_i− (β0+ β1xi,1+ ... + βpxi,p))2. 8

(19)

Posons S(β) = n

i=1

(y_i− (β0+ β1xi,1+ ... + βpxi,p))2. On utilise ensuite le calcul diérentiel

pour obtenir les estimateurs ˆβ_j, j = 0, ..., p, du problème ci-dessus. Ceci consiste à évaluer les dérivées partielles suivantes :

∂S(β) ∂β₀ =

n

i=1

2(y_i− (β0+ β1xi,1+ ... + βpxi,p))

∂S(β) ∂β₁ =

n

i=1

2(y_i− (β0+ β1xi,1+ ... + βxi,p))xi,1

... ∂S(β) ∂β_p = n i=1

2(y_i− (β0+ β1xi,1+ ... + βpxi,p))xi,p.

Les estimateurs ˆβ_j, sont les valeurs telles que ∂S(β)_∂β

j

β= ˆβ = 0, pour tout j = 0, ..., p.

On cherche alors à résoudre le système d'équations linéaires suivant pour trouver les estimateurs ˆβ_j : n i=1 y_i = n ˆβ₀+ ˆβ₁ n i=1 x_i,1+ ˆβ₂ n i=1 x_i,2+ ... + ˆβ_p n i=1 x_i,p n i=1 y_ix_i,1 = n i=1 x_i,1βˆ₀+ ˆβ₁ n i=1 x2_i,1+ ˆβ₂ n i=1 x_i,2x_i,1+ ... + ˆβ_p n i=1 x_i,px_i,1 ... n i=1 y_ix_i,p = n i=1 x_i,pβˆ₀+ ˆβ₁ n i=1 x_i,1x_i,p+ ˆβ₂ n i=1 x_i,2x_i,p+ ... + ˆβ_p n i=1 x2_i,p En ramenant ce système sous forme matricielle, on obtient alors :

⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ n i=1 y_i n i=1 y_ix_i,1 ... n i=1 y_ix_i,p ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ n n i=1 x_i,1 n i=1 x_i,2 ... n i=1 x_i,p n i=1 x_i,1 n i=1 x2_i,1 n i=1 x_i,2x_i,1 ... n i=1 x_i,px_i,1 ... ... ... ... ... n i=1 x_i,p n i=1 x_i,1x_i,p n i=1 x_i,2x_i,p ... n i=1 x2_i,p ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ˆ β₀ ˆ β₁ ... ˆ β_p ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ . 9

(20)

Ce qui est équivalent à :

Xt_{Y = X}t_{X ˆ}_β.

Si la matrice Xt_{X est inversible, on trouve alors que l'estimateur ˆ}_{β de β par la méthode}

des moindres carrés ordinaire est déni par :

ˆ

β = (Xt_X)−1_Xt_{Y .}

On peut vérier que ˆβ est bien un minimum de S(β). En eet, considérons la matrice

hessienne H(S) = ∂2

∂βi∂βjS(β)

(i,j), avec i = 0, 1, ..., p et j = 0, 1, ..., p, [Che17] a montré

que cette matrice était dénie positive, c'est-à-dire que pour tout vecteur colonne v à p + 1 composantes, on a que vH(S)vt _{> 0}_{. On conclu ainsi que ˆ}_{β est bien un minimum}

de S(β).

1.2.1 Propriétés de l'estimateur obtenu par la méthode des MCO

Sous les hypothèses H1à H6, on peut démontrer certaines propriétés de l'estimateur des moindres carrés ordinaire ˆβ.

Théorème 1 (Estimateur sans biais)

ˆ

β est un estimateur sans biais, c'est-à-dire que E( ˆβ) = β.

Démonstration. Si X est xe, on a :

E[ ˆβ] = E[(Xt_X)−1_Xt_{Y ]} = (Xt_X)−1_Xt_{E[Y ]} = (Xt_X)−1_Xt_{E[Xβ + ]} = (Xt_X)−1_Xt_{(Xβ + E[])} = (Xt_X)−1_Xt_Xβ = β. 10

(21)

Si X est aléatoire, E[ ˆβ] = E[(Xt_X)−1_Xt_{Y ]} = E[E[(Xt_X)−1_Xt_{Y |X]]} = E[(Xt_X)−1_Xt_{E[Y |X]]} = E[(Xt_X)−1_Xt_{E[Xβ + |X]]} = E[(Xt_X)−1_Xt_{(Xβ + E[|X])]}

En vertu de H2 et H5, E[|X])] = 0, on obtient ainsi : E[ ˆβ] = E[(Xt_X)−1_Xt_Xβ]

= β

Théorème 2 (Variance)

La matrice de variance-covariance conditionnelle à X de l'estimateur ˆβ est :

Σ( ˆβ|X) = σ2_(Xt_X)−1_. Démonstration. En eet, Σ( ˆβ|X) = Σ((Xt_X)−1_Xt_{Y |X)} = (Xt_X)−1_Xt_{Σ(Y |X)((X}t_X)−1_Xt₎t = (Xt_X)−1_Xt_{Σ(Xβ + |X)X(X}t_X)−1 = (Xt_X)−1_Xt_Σ(|X)X(Xt_X)−1 = (Xt_X)−1_Xt_σ2_X(Xt_X)−1 = σ2_(Xt_X)−1_. 11

(22)

Théorème 3 (Normalité)

Sous les six hypothèses H1 à H6, on a

ˆ

β|X ∼ N(β, σ2_(Xt_X)−1_).

Démonstration.

Soit Z un vecteur aléatoire d × 1 tel que

Z = (Z1, Z2, ..., Zd) ∼ N(μ, H),

où H est une matrice dénie positive de dimension d × d et N est la loi normale multi-dimensionnelle. Alors,

AZ + B ∼ N(Aμ + B, AHAt_),

où A est une matrice de dimension d × d et B est un vecteur de s éléments. Ainsi, puisque : Y = Xβ + ∼ N(Xβ, σ2₁₁ d×d), il vient : ˆ β = (Xt_X)−1_Xt_{Y ∼ N}_(Xt_X)−1_Xt_{Xβ, (X}t_X)−1_Xt_σ2_((Xt_X)−1_Xt₎t_. On obtient alors, ˆ β ∼ Nβ, σ2_(Xt_X)−1_.

Théorème 4 (Théorème de Gauss-Markow)

L'estimateur ˆβ est un estimateur BLUE (Best Linear Unbiaised Estimator) pour les

paramètres β du modèle (1.2).

(23)

Démonstration.

Soit ˜β = CY un autre estimateur linéaire sans biais pour le vecteur des paramètres β du

modèle (1.2) avec C = (Xt_X)−1_Xt_{+ D, où D est une matrice de dimension (p + 1) × n}

et on supposera que X est non aléatoire. On a donc : E[ ˜β] = E[CY ] = E[((Xt_X)−1_Xt_{+ D)Y ]} = E[((Xt_X)−1_Xt_{+ D)(Xβ + )]} = ((Xt_X)−1_Xt_{+ D)Xβ + ((X}t_X)−1_Xt_{+ D)E[]} = (Xt_X)−1_Xt_{Xβ + DXβ} = (11(p+1)×(p+1)+ DX)β.

Pour que ˜β soit un estimateur sans biais, il faut que DX = 0. Ainsi :

Σ( ˜β) = Σ(CY ) = CΣ(Y )Ct = CΣ(Xβ + )Ct = CΣ[]Ct = σ2_CCt = σ2_((Xt_X)−1_Xt_{+ D)((X(X}t_X)−1_{+ D}t₎ = σ2_[(Xt_X)−1_{+ (X}t_X)−1_Xt_Dt_{+ DX(X}t_X)−1_{+ DD}t_] = σ2_[(Xt_X)−1_{+ (X}t_X)−1_(DX)t_{+ DX(X}t_X)−1_{+ DD}t_] = σ2_[(Xt_X)−1_{+ DD}t_] = Σ( ˆβ) + σ2_DDt_.

Comme les termes diagonaux de la matrice σ2_DDt _{sont positifs ou nuls, on trouve ainsi}

que [Σ( ˜β)]i,i ≥ [Σ( ˆβ)]i,i, pour tout i = 0, ..., p.

(24)

1.3 Point de rupture et ecacité relative d'un

estima-teur

1.3.1 Point de rupture

Le point de rupture est une notion très importante lorsqu'on aborde le concept de ro-bustesse pour les estimateurs. Il est déni comme étant la plus petite fraction de conta-mination dans un échantillon qui déstabilise complètement un estimateur [DLS05]. Une dénition simpliée du point de rupture et permettant de travailler avec des échantillons nis a été introduit par Donoho et Huber en 1983 [DH83].

Dénition 1.1 (Point de rupture)[Donoho et Huber (1983)]

Soit E = {(xi, yi)}ni=1 un échantillon de n points. Considérons un estimateur ˆβ =

( ˆβ₀, ˆβ₁, ..., ˆβ_p) pour les paramètres de régression β = (β₀, β₁, ..., β_p) et λ(m, ˆβ, E) = sup ˆβ(X_{) − ˆ}_β(X)

2 pour tous échantillons corrompus X dans lequel m points de

l'échantillon original X ont été remplacés par des valeurs arbitraires. Alors, on dénit le point de rupture de l'estimateur ˆβ par :

θ_n= min m _m n; λ(m, ˆβ, E) = ∞ . (1.5)

Pour l'estimateur des MCO, celui-ci utilise chaque point de l'échantillon pour le calcul de l'estimateur ˆβ. Ainsi, comme on peut le voir dans la gure 1.1, le remplacement d'un

seul point de l'échantillon original par un point aberrant modie l'estimation. Alors, si on remplace un seul point de l'échantillon original par un point arbitrairement loin de cet échantillon nous donne λ(1, ˆβ, E) = ∞.

(25)

θ_n = _n1 n 0% ˆ β₂ ˆ β₁ Ef f ( ˆβ₁, ˆβ₂) = E[( ˆβ1− β) 2_] E[( ˆβ₂− β)2]

(26)

Dans le contexte de la régression linéaire multiple, l'estimateur des moindres carrés ordi-naire est considéré comme étant BLUE (en vertu du théorème 4). Quand les hypothèses sont respectées, il ore une variance minimale, donc on le considère comme l'estimateur linéaire le plus ecace connu. Pour ce mémoire, lorsqu'on parlera d'ecacité relative, on comparera l'erreur quadratique moyenne d'un estimateur avec celle de l'estimateur des MCO.

1.3.3 Exemple

Voici quelques exemples simulés utilisant l'estimateur obtenu par la méthode des MCO et qui contiennent des taux diérents de données aberrantes.

Figure 1.2 Modélisation sans et avec une donnée aberrante

(27)

Figure 1.3 Modélisation avec 10% et 20% de données aberrantes

On remarque que la présence d'une seule donnée aberrante peut aecter considérablement la régression linéaire. Dans le contexte du projet de recherche sur les porcs, la base de données contient environ 10% de points aberrants et ces données peuvent aecter signicativement les résultats. C'est pourquoi nous aborderons la notion d'estimateur robuste dans le prochain chapitre. Ce type d'estimation permettra la construction d'un modèle qui ne sera pas aecté par ces données aberrantes. Les notions de points de rupture et d'ecacité relative présentés dans ce premier chapitre nous permettrons de comparer ces estimateurs robustes entre eux.

En résumé, dans ce chapitre nous avons d'abord rappelé quelques notions de la régression linéaire multiple. Nous avons ensuite présenté l'estimation des paramètres de régression par la méthode des MCO. Nous avons terminé ce chapitre en donnant la dénition de point de rupture et d'ecacité relative qui sont deux notions qui nous permettrons de comparer les estimateurs présentés dans le prochain chapitre avec l'estimateur obtenu par la méthode des MCO.

(28)

CHAPITRE 2

Régression multiple avec estimateur

robuste

La régression robuste est une méthode de régression très fréquente lorsqu'il y a présence de données aberrantes et aussi lorsque certaines hypothèses de la régression sont violées. Elle permet la détection de ces données aberrantes et donne une bonne estimation des paramètres de la régression. Dans les trois premières sections de ce chapitre, on présentera la M-estimation, la S-estimation et la MM-estimation des paramètres du modèle. La der-nière section portera sur les régressions quantiles. Pour chaque estimateur, les propriétés asymptotiques seront présentées.

2.1 M-estimation des paramètres du modèle

La M-estimation est une généralisation de l'approche du maximum de vraisemblance. Elle repose sur le principe de minimiser une fonction de coût qui permettra de pénaliser les résidus i les plus grands. La fonction de coût s'écrit :

(29)

C() =

n

i=1

ρ(_i), (2.1)

où la fonction ρ est une fonction continue et symétrique appelée "fonction objective". Cette fonction satisfait les conditions dans la dénition 2.2 ci-dessous donnée par Ma-ronna, Martin et Yohai [MMY06]. Pour cela, nous allons introduire, dans la dénition suivante, la notion de ψ-fonction.

Dénition 2.1 Une ψ-fonction est une fonction continue par morceaux dénie de R dans R telle que :

1. ψ est symétrique par rapport à l'origine : ψ(−x) = −ψ(x) pour tout x dans R, 2. ψ(x) ≤ 0 pour x ≤ 0 et ψ(x) > 0 pour 0 < x < xr, où xr = sup{x : ψ(x) > 0}

(xr > 0, possiblement xr= ∞),

3. ψ_{(0) = 1.}

Remarque : Le point 3 n'est pas strictement requis, mais on l'utilise pour la normalisa-tion dans les cas où ψ est continue en x = 0. Il en découle aussi, du point 1, que ψ(0) = 0 et on impose que ψ(0) = 0 pour tous les cas où ψ est discontinue en x = 0.

Dénition 2.2 Une ρ-fonction, au point x, est représentée par l'intégrale d'une ψ-fonction sur [0, x],

ρ(x) = _x

0

ψ(u)du.

D'après la dénition 2.1 et 2.2, on voit que ρ(0) = 0, que ρ est une fonction paire et que ρ(x) = ψ(x). Dans la littérature, plusieurs fonctions ρ ont été proposées. Elles dépendent de certaines constantes qui permettent d'augmenter la robustesse des estimateurs lorsqu'il y a présence de données aberrantes, mais au détriment de leur l'ecacité. Les deux fonctions ρ les plus utilisées sont celles proposées par Huber [Hub64] et par Tukey [Hub81].

(30)

ρ c > 0 ρ(x) = ₁ 2x2 |x| ≤ c c(|x| − c 2) |x| > c ψ(x) = x |x| ≤ c c sign(x) |x| > c c > 0 ρ(x) = _c2 6[1 − (1 − (xc)2)3] |x| ≤ c c2 6 |x| > c ψ(x) = x[1− (x c)2]2 |x| ≤ c 0 |x| > c

(31)

c 1.345 4.685 c f (x) = x2 x = c f (x) = x2 β_j, j = 0, ..., p ˆ βM ₌ β n i=1 ρ [y_i− (β₀+ β₁x_i,1+ ... + β_px_i,p).]

(32)

L'estimateur obtenu par la méthode des MCO (1.3) est invariant par changement d'échelle. Par exemple,supposons qu'on cherche à modéliser le poids des porcs en fonction de leur âge,l'ajustement du modèle (c'est-à-dire le coecient de détermination R2_{) ne sera pas}

changé par le fait d'utiliser des poids mesurés en kilogramme ou en livres. Cette propriété bien pratique n'est pas partagée par les M-estimateurs. Ainsi,pour obtenir un estimateur qui ne dépend pas de l'unité utilisée,on doit introduit introduire un estimateur de la dis-persion des résidus. Posons ˆi = yi− ( ˆβ0M + ˆβ1Mxi,1+ ... + ˆβpMxi,p),pour tout i = 1, ..., n.

Un estimateur robuste et très populaire pour la dispersion des résidus est le re-scales MAD [And08] :

ˆσ = 1.4826 MAD, (2.3)

où MAD signie "Median absolute deviation" et est calculé de la façon suivante :

M AD =médiane|ˆ_i|.

Cet estimateur est peu sensible aux données aberrantes et possède un point de rupture de 50%,car il utilise la médiane au lieu de la moyenne [And08]. La multiplication par le facteur 1.4826 permet,lorsque l'échantillon est grand et que i ∼ N(0, σ2),d'obtenir un

estimateur robuste pour l'écart-type. En eet : 0.5 ≈ P (|i| < MAD) 0.5 ≈ Pi− 0 σ  < M AD_σ 0.5 ≈ P |Z| < M AD σ . Donc, MAD

σ correspond approximativement au quantile de la distribution normale au

point 0.75 noté φ−1_{(0.75). Par conséquent :}

σ ≈ M AD φ−1(0.75) ≈ 1.4826 MAD.

(33)

Ainsi, on dénit le M-estimateur ˆβM _{de la façon suivante :} ˆ βM _{= argmin} β n i=1 ρ i ˆσ (2.4) = argmin β n i=1 ρ ₁ ˆσ[yi− (β0+ β1xi,1+ ... + βpxi,p)] .

On cherche alors àrésoudre le problème d'optimisation :

L(β) = argmin β n i=1 ρ i ˆσ = argmin β n i=1 ρ ₁ ˆσ[yi− (β0+ β1xi,1+ ... + βpxi,p)] .

Le calcul diérentiel nous permettra encore une fois de résoudre ce problème de minimi-sation et d'obtenir les estimateurs { ˆβM

j }pj=0. En calculant les dérivées partielles de la

fonc-tion ρ par rapport àchaque paramètre βi du modèle recherché et en posant ψ(u) = dρ(u)_du ,

on se retrouve avec un système à p + 1 équations : ∂L(β) ∂β₀ β= ˆβM = n i=1 ψ y_i − ( ˆβM 0 + ˆβ1Mxi,1+ ... + ˆβpMxi,p) ˆσ −1 ˆσ = 0 ∂L(β) ∂β₁ β= ˆβM = n i=1 ψ y_i − ( ˆβM 0 + ˆβ1Mxi,1+ ... + ˆβpMxi,p) ˆσ _−x i,1 ˆσ = 0 ... ∂L(β) ∂β_p β= ˆβM = n i=1 ψ y_i − ( ˆβM 0 + ˆβ1Mxi,1+ ... + ˆβpMxi,p) ˆσ −xi,p ˆσ = 0. (2.5)

Rappelons que ˆi = yi−( ˆβ0M+ ˆβ1Mxi,1+...+ ˆβpMxi,p). Pour résoudre ce système d'équations,

Draper et Smith [DS98] ont déni la fonction de poids suivante :

w(u) = ψ(u) u . 23

(34)

Posons wi = w(ˆ_ˆσi) pour tout i = 1, 2, ..., n, avec wi = 1 si î = 0. On peut alors déduire l'égalité suivante : w_i = ψ( î ˆσ) î ˆσ ⇒ ψ _ˆ i ˆσ = wiî ˆσ . En substituant ψ(î

ˆσ) = wiˆσˆi dans le système d'équations (2.12), on peut réécrire le système

de la façon suivante : ∂L(β) ∂β₀ β= ˆβM = n i=1 ψ _ˆ i ˆσ = 1 ˆσ n i=1 w_iˆ_i = 0 ∂L(β) ∂β₁ β= ˆβM = n i=1 ψ _ˆ i ˆσ x_i,1 = 1 ˆσ n i=1 w_iˆ_ix_i,1 = 0 ... ∂L(β) ∂β_p β= ˆβM = n i=1 ψ ˆ_i ˆσ x_i,p = 1 ˆσ n i=1 w_iˆ_ix_i,p = 0.

En utilisant le fait que ˆi = yi − ( ˆβ0M + ˆβ1Mxi,1 + ... + ˆβpMxi,p), on obtient le système

d'équations suivant : n i=1 w_i(y_i− ( ˆβ₀M + ˆβ₁Mx_i,1+ ... + ˆβ_pMx_i,p)) = 0 n i=1

x_i,1w_i(y_i− ( ˆβ₀M + ˆβ₁Mx_i,1+ ... + ˆβM_p x_i,p)) = 0 ...

n

i=1

x_i,pw_i(y_i− ( ˆβ₀M + ˆβ₁Mx_i,1+ ... + ˆβ_pMx_i,p)) = 0

En réorganisant les équations, on trouve les égalités :

(35)

n i=1 w_iy_i = n i=1 w_iβˆ₀M + n i=1 w_iβˆ₁Mx_i,1+ ... + n i=1 w_iβˆ_pMx_i,p n i=1 w_ix_i,1y_i = n i=1 x_i,1w_iβˆ₀M + n i=1 x_i,1w_iβˆ₁Mx_i,1+ ... + n i=1 x_i,1w_iβˆ_pMx_i,p ... n i=1 w_ix_i,py_i = n i=1 x_i,pw_iβˆ₀M + n i=1 x_i,pw_iβˆ₁Mx_i,1+ ... + n i=1 x_i,pw_iβˆ_pMx_i,p.

En ramenant ce système d'équations sous forme matricielle, on obtient alors : ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ n i=1 w_iy_i n i=1 w_ix_i,1y_i ... n i=1 w_ix_i,py_i ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ n i=1 w_i n i=1 x_i,1w_i n i=1 x_i,2w_i ... n i=1 x_i,pw_i n i=1 w_ix_i,1 n i=1 x2_i,1w_i n i=1 x_i,2w_ix_i,1 ... n i=1 x_i,pw_ix_i,1 ... ... ... ... ... n i=1 w_ix_i,p n i=1 x_i,1w_ix_i,p n i=1 x_i,2w_ix_i,p ... n i=1 x2_i,pw_i ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ˆ β₀M ˆ βM 1 ... ˆ βM p ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ .

Ce qui est équivalent à :

Xt_{W Y = X}t_{W X ˆ}_βM_,

où la matrice W est une matrice diagonale n × n contenant tous les poids wi :

W = diag(w1, w2, ..., wn) = ⎛ ⎜ ⎜ ⎜ ⎝ w₁ 0 ... 0 0 w₂ ... 0 ... ... ... ... 0 0 ... w_n ⎞ ⎟ ⎟ ⎟ ⎠.

Si la matrice Xt_{W X est inversible, on en déduit que}

ˆ

βM _{= (X}t_{W X)}−1_Xt_{W Y .}

(36)

On trouve que le M-estimateur des paramètres du modèle est très similaire à celui obtenu par la méthode des moindres carrés ordinaires. L'introduction d'une matrice de poids permet de réduire l'inuence des données aberrantes. Toutefois, cette matrice de poids dépend des résidus, lesquels dépendent de l'estimation des paramètres de la régression. On utilise alors le IRLS (Iteratively Reweighted Least squares), une procédure itérative, pour trouver le M-estimateur des paramètres du modèle. Voici un algorithme proposé par Susanti, Pratiwi, Sulistijowati et Liana [SPHL13] pour trouver un M-estimateur des paramètres du modèle.

Algorithme : M-estimateur

Itération 0 :

- On calcule les estimateurs ˆβM(0) _{en utilisant la méthode des MCO.}

- On calcule ensuite les résidus {ˆ(0)_i }n

i=1 en utilisant les paramètres estimés

{ ˆβM(0) i }pi=0.

- On trouve ˆσ(0) _{= 1.4826 MAD, où MAD est obtenu avec {ˆ}(0)

i }ni=1.

- On choisit une fonction de poids w(u) (associée à une fonction objective ρ(u)). - On calcule ensuite les poids w_i(0) = w

ˆ(0)_i ˆσ(0)

.

- On obtient alors la matrice W(0) ₌

⎛ ⎜ ⎜ ⎜ ⎝ w(0)₁ 0 ... 0 0 w(0)₂ ... 0 ... ... ... ... 0 0 ... wn(0) ⎞ ⎟ ⎟ ⎟ ⎠. Itération 1 : - On calcule ˆβM(1) _{= (X}t_W(0)_X)−1_Xt_W(0)_{Y .}

- On déduit ensuite les résidus {ˆi(1)}ni=1 en utilisant les paramètres estimés

{ ˆβM(1) i }pi=0.

- On trouve ˆσ(1) _{= 1.4826 MAD où MAD est obtenu avec {ˆ}(1)

i }ni=1.

(37)

- On calcule ensuite les poids w_i(1) = w ˆ(1)_i ˆσ(1) .

⎛ ⎜ ⎜ ⎜ ⎝ w(1)₁ 0 ... 0 0 w(1)₂ ... 0 ... ... ... ... 0 0 ... wn(1) ⎞ ⎟ ⎟ ⎟ ⎠. Itération L : - On calcule ˆβM(L) _{= (X}t_W(L−1)_X)−1_Xt_W(L−1)_{Y .}

- On calcule ensuite les résidus {ˆ(L)_i }n

{ ˆβM(L) i }pi=0.

- On trouve ˆσ(L)_{= 1.4826MAD où MAD est obtenu avec {ˆ}(L−1)

i }ni=1.

- On calcule ensuite les poids w_i(L)= w

ˆ(L)_i ˆσ(L)

.

- On obtient alors la matrice W(L)₌

⎛ ⎜ ⎜ ⎜ ⎝ w₁(L) 0 ... 0 0 w(L)₂ ... 0 ... ... ... ... 0 0 ... w_n(L) ⎞ ⎟ ⎟ ⎟ ⎠.

On arrête le processus à la Lieme _{itération lorsque :}

 ˆβM(L)_{− ˆ}_βM(L−1) 2  ˆβM(L) 2 < ξ,

où ξ est un très petit nombre positif xé à l'avance, par exemple ξ = 0.0001. Dans le logiciel R [?], la fonction rlm utilise plutôt le pourcentage de changement entre les résidus de l'itération L et ceux de l'itération L-1 pour un ξ xé :

ˆM(L)_{− ˆ}M(L−1) 2 ˆM(L) 2 < ξ. 27

(38)

2.1.1 Propriétés d'un M-estimateur des paramètres du modèle

Considérons E[t_{] = σ}2₁₁

n×n, N la loi normale multidimensionnelle et φ la densité d'une

loi normale centrée réduite. Sous plusieurs conditions, Jureckova, Sen et Picek [JSP13] ont montré la convergence en distribution du M-estimateur ˆβM _{déni en (2.2). Ainsi,}

lorsque n tend vers l'inni, on a :

√ n( ˆβM − β)−→ Nd 0, σ2Q−1 e , où d signie convergence en distribution,

e = ψ(x)φ(x)dx2 ψ2(x)φ(x)dx et Q = limn→∞ 1 nX t_X.

Pour plus de détails, voir [JSP13] pages 215 à 224.

Points de rupture

Comme l'estimateur des MCO, le M-estimateur des paramètres du modèle déni précé-demment est construit en supposant qu'il n'y ait pas d'erreur dans les variables indépen-dantes. Donc, il ne considèrent pas les points de levier. On appelle point de levier un point qui semble aberrant par rapport aux autres points obtenus pour la variable explicative. En fait, un seul mauvais point de levier peut inuencer considérablement l'estimation des paramètres comme on peut le remarquer dans le graphique ci-dessous.

(39)

Figure 2.3 Inuence des points verticaux et d'un point de levier sur la M-estimation. Dans le premier graphique à gauche de la gure 2.3, on peut voir la robustesse d'un M-estimateur des paramètres du modèle, construit à partir de la fonction ρ proposée par Tukey, devant les points verticaux. On dénit un point vertical comme étant un point qui semble aberrant par rapport aux autres points obtenus pour la variable réponses. L'estimateur des MCO, quant à lui, est fortement inuencé par ces points aberrants. Toutefois, dans le graphique de droite, on remarque que la présence d'un seul point de levier inuence considérablement la M-estimation.

Le point de rupture d'un M-estimateur des paramètres du modèle est donc θn = 1_n.

Lorsque n devient très grand, le point de rupture tend vers 0% [RL87].

(40)

Ecacité relative

Comme dit précédemment, un M-estimateur des paramètres du modèle dépend de cer-taines constantes qui permettent d'augmenter sa résistance lorsqu'il y a présence de don-nées aberrantes, mais cela au détriment de son ecacité. Dans le cas d'un M-estimateur des paramètres du modèle construit avec la fonction ρ(u) proposée par Huber, on uti-lise habituellement une constante c = 1.345, ce qui permet d'obtenir une ecacité de 95% [BL14] par rapport à l'estimation par la méthode des MCO. En eet, considé-rons X ∼ N(0, 1) et φ(x) la densité d'une loi normale centrée réduite, on a pour tout i = 0, 1, ..., p : Ef f ( ˆβ_i, ˆβ_iM) = Σ( ˆβ) i,i Σ( ˆβM₎ i,i = c −cψ(x)φ(x)dx 2 _c −c[ψ(x)]2φ(x)dx = _1.345 −1.345√12πexp −x2 2 dx 2 _1.345 −1.345x2 1√2πexp _−x2 2 dx = 0.6747 0.7102 = 0.9500.

Dans le cas d'un M-estimateur des paramètres du modèle construit avec la fonction ρ(u) proposée par Tukey, on utilise habituellement c = 4.685, ce qui permet d'obtenir aussi une ecacité de 95% [BL14] par rapport à la méthode des MCO. En eet :

(41)

Ef f ( ˆβ_i, ˆβ_iM) = Σ( ˆβ) i,i Σ( ˆβM₎ i,i (2.6) = _c −cψ(x)φ(x)dx ₂ _c −c[ψ(x)]2φ(x)dx = _4.685 −4.685(x(1 − (4.685x )2)2) 1√2πexp −x2 2 dx ₂ _4.685 −4.685(x(1 − (4.685x )2)2)2 1√2πexp _−x2 2 dx = 0.5742 0.6044 = 0.9500. (2.7)

Remarque : Si on diminue la valeur des constantes, c, ci-dessus, on obtiendra des esti-mateurs plus robustes lorsqu'il y a présence de données aberrantes, car on pénalisera les erreurs les plus grandes. Toutefois, nous aurons un estimateur moins ecace.

2.2 S-estimation des paramètres du modèle

Similairement à la méthode des moindres carrés ordinaires qui minimise la variance des résidus, la S-estimation consiste à déterminer les paramètres de régression qui permettent de minimiser la dispersion des résidus s(1(β), ..., n(β)). La S-estimation des paramètres

du modèle est basée sur la minimisation d'un M-estimateur d'échelle. [DSTA15] on dénit un M-estimateur d'échelle comme étant la solution en s de l'équation :

1 n n i=1 ρ i s = K, (2.8)

où 0 < K < ρ(∞) est une constante dénie de façon à obtenir des estimateurs convergents sous l'hypothèse de normalité (K = Eφ[ρ(u)] où φ(.) est la fonction de densité d'une

(42)

normale centrée réduite, voir [DSTA15] p.102) et ρ(.) satisfait aux conditions suivantes :

C1 : ρ est symétrique par rapport à l'origine (ρ(−x) = −x), continuellement diéren-tiable et ρ(0) = 0.

C2 : ∃ a > 0 tel que ρ soit strictement croissante sur [0, a] et constante sur [a, ∞[. C3 : K

ρ(a) = 12.

Un choix usuel pour la fonction ρ est la fonction ρ proposée par Tukey (2.2). La troisième condition n'est pas absolument nécessaire, mais elle est requise pour obtenir un point de rupture de 50%.

Ainsi, le S-estimateur ˆβS des paramètres du modèle est alors déni par :

ˆ βS _{= argmin} β s(₁(β), ..., _n(β)) (2.9) sujet à 1 n n i=1 ρ _i s(₁(β), ..., _n(β)) = K.

[DSTA15] ont vérié que le S-estimateur des paramètres du modèle, basé sur un M-estimateur d'échelle ˆs, satisfait aussi le problème de minimisation ci-dessous :

ˆ βS _{= argmin} β n i=1 ρ i ˆs . où ˆs = 1 nK n i=1 ws iˆ2i, avec w_is= ρ _ˆ_i ˆs _ˆ_i ˆs 2. 32

(43)

En eet, puisque ˆs sastisfait à la relation (2.8), il vient : K = 1 n n i=1 ρ i ˆs ⇒ 1 = 1 nK n i=1 ρ _ˆ i ˆs ⇒ ˆs2 ₌ 1 nK n i=1 ρ ˆ_i ˆs ˆs2 ⇒ ˆs2 ₌ 1 nK n i=1 ρˆi ˆs ˆ2 i ˆs2 ˆ2 i ⇒ ˆs = 1 nK n i=1 ρˆi ˆs ˆ2 i ˆs2 ˆ2 i ⇒ ˆs = 1 nK n i=1 ws iˆ2i.

Ainsi, l'ensemble des résultats théoriques associés à la M-estimation des paramètres du modèle peuvent être utilisés pour la S-estimation des paramètres du modèle [DSTA15]. On a doncque

ˆ

βS _{= (X}t_{W X)}−1_Xt_{W Y .}

De la même façon que pour la M-estimation des paramètres du modèle, on doit utiliser une procédure itérative pour trouver un S-estimateur des paramètres du modèle (IRLS method). Ainsi, à chaque itération, on calculera une nouvelle estimation de s en utilisant :

ˆs(L)₌ 1 nK n i=1 ws(L−1) i ˆ2 (L−1) i

Voici un algorithme proposé par Susanti, Pratiwi, Sulistijowati et Liana [SPHL13] pour trouver un S-estimateur des paramètres du modèle :

(44)

Algorithme : S-estimateur

Itération 0 :

- On trouve les estimateurs ˆβS(0) _{en utilisant la méthode des MCO.}

i=1en utilisant les paramètres estimés ˆβS

(0)

. - On trouve ˆs(0) _{= 1.4826 MAD et on pose u}

i = ˆ

(0)

i

ˆs(0) pour i = 1, ..., n.

- On calcule les poids (pour l'estimation de ˆs(1)_{) w}s(0)

i = ρ(uu2_ii), i = 1, ..., n.

- On calcule ensuite les poids (pour l'estimation des paramètres du modèle ˆβS(1)₎

w_i(0) = w(u_i) = ψ(ui)

ui pour i = 1, ..., n.

⎛ ⎜ ⎜ ⎜ ⎝ w(0)₁ 0 ... 0 0 w(0)₂ ... 0 ... ... ... ... 0 0 ... w_n(0) ⎞ ⎟ ⎟ ⎟ ⎠. Itération 1 : - On calcule ˆβS(1) _{= (X}t_W(0)_X)−1_Xt_W(0)_{Y .}

i=1en utilisant les paramètres estimés ˆβS

(1) . - On trouve ˆs(1) ₌! 1 nK _n i=1ws (0) i ˆ2 (1) i et on pose ui = ˆ (1) i ˆs(1) .

- On calcule les poids (pour l'estimation de ˆs(2)_{) w}s(1)

i = ρ(uu2_ii) pour i = 1, ..., n.

- On calcule ensuite les poids (pour l'estimation des paramètres du modèle ˆβS(2)₎

w_i(1) = w(u_i) = ψ(ui)

ui .

⎛ ⎜ ⎜ ⎜ ⎝ w(1)₁ 0 ... 0 0 w(1)₂ ... 0 ... ... ... ... 0 0 ... wn(1) ⎞ ⎟ ⎟ ⎟ ⎠. 34

(45)

Itération L :

- On calcule ˆβS(L) _{= (X}t_W(L−1)_X)−1_Xt_W(L−1)_{Y .}

- On calcule ensuite les résidus {ˆ(L)_i }n

ˆ βS(L)_. - On trouve ˆs(L)₌! 1 nK _n i=1ws (L−1) i ˆ2i et on pose ui = ˆ (L) i ˆs(L).

- On calcule les poids (pour l'estimation de ˆs(L+1)_{) w}s(L)

i = ρ(uu2_ii) pour i = 1, ..., n.

- On calcule ensuite les poids (pour l'estimation des paramètres du modèle

ˆ

βS(L+1)_{) w}(L)

i = w(ui) = ψ(u_u_ii).

- On obtient alors la matrice W(L)₌

⎛ ⎜ ⎜ ⎜ ⎝ w₁(L) 0 ... 0 0 w(L)₂ ... 0 ... ... ... ... 0 0 ... wn(L) ⎞ ⎟ ⎟ ⎟ ⎠

On arrête le processus à la Lieme _{itération lorsque :}

 ˆβS(L)_{− ˆ}_βS(L−1) 2  ˆβS(L) 2 < ξ,

où ξ est un nombre positif aussi petit que l'on veut,xé à l'avance,par exemple ξ = 0.0001. Dans le logiciel R [?],la fonction rlm utilise plutôt le pourcentage de changement entre les résidus de l'itération L et ceux de l'itération L-1 pour un ξ xé :

ˆS(L)_{− ˆ}S(L−1) 2 ˆS(L) 2 < ξ.

2.2.1 Propriétés des S-estimateurs

Comme dit précédemment,les résultats théoriques associés à la M-estimation des para-mètres du modèle peuvent être utilisés pour la S-estimation des parapara-mètres du modèle.

(46)

Considérons E[t_{] = σ}2₁₁

n×n, N la loi normale multidimensionnelle et φ la densité d'une

loi normale centrée réduite. Ainsi, sous l'hypothèse de normalité, on obtient le résultat suivant : √ n( ˆβ_S− β)−→ Nd 0, σ2Q−1 e , où ψ est la dérivée de ρ, e est donné par :

e =

ψ(x)φ(x)dx2

ψ2(x)φ(x)dx , et où Q est donné par :

Q = lim

n→∞

1 nX

t_X

Pour plus de détails, voir [RL87] pages 140 à 142.

Point de rupture

Rousseeuw et Leroy [RL87] ont établi que le point de rupture d'un S-estimateur (si la fonction ρ satisfait aux conditions C1,C2 et C3), est

n

2 − p + 2

n .

Lorsque n → ∞, on obtient un point de rupture de 50%. Toutefois, puisqu'il n'y a qu'une légère dépendance à l'égard de n, on dit que l'estimateur a un point de rupture de 50%. Rousseeuw et Leroy [RL87] soulignent que si la troisième condition C3 est réécrite de la façon suivante :

K

ρ(c) = α, où 0 < α ≤ 1

2, le S-estimateur des paramètres du modèle résultant aurait un point de

rupture de α lorsque n −→ ∞. En utilisant la fonction de Tukey, Rousseeuw et Yohai [RY84] ont déterminé qu'avec c=1.547, la troisième condition ( K

ρ(c) = 12) est satisfaite et

(47)

on obtient un S-estimateur avec un point de rupture de 50%. En eet, en réécrivant la fonction de Turkey de la façon suivante :

ρ(u) = ⎧ ⎨ ⎩ u2 2 − u 4 2c2 + u 6 6c4 si |u| ≤ c c2 6 si |u| > c, (2.10)

et en considérant U ∼ N(0, 1) avec une fonction de densité φ(u) = _√1 2πe −u2 2 et avec c=1.547, on a : K =E_φ[ρ(u)] = _∞ −∞ ρ(u)φ(u)du = 2 _∞ 0 ρ(u)φ(u)du = 2 _1.547 0 u2 2 − u4 2c2 + u6 6c4 ₁ √ 2πe −u2 2 _{du + 2} _∞ 1.547 1.5472 6 1 √ 2πe −u2 2 _du = % 2 π _1.547 0 u2 2 − u4 2c2 + u6 6c4 e−u22 +1.546 2 3 _∞ 1.547 1 √ 2πe −u2 2 _du = % 2 π0.189 + 0.798(0.061) = 0.199

De plus, ρ(1.547) = 0.399. Donc, en ignorant les erreurs d'arrondis, on obtient : K ρ(1.547) = E φ[ρ(u)] ρ(1.547) = 0.199 0.399 = 1 2 (2.11) Ecacité relative

Si on désire un S-estimateur des paramètres du modèle avec un point de rupture de 50%, on a dit précédemment qu'on devait utiliser une constante c = 1.547 pour la fonction ρ de Tukey. Toutefois, en utilisant cette constante, on obtient un estimateur avec une faible

(48)

ecacité relative (28,7%) par rapport à l'estimation par la méthode des MCO. En eet, on a pour tout i = 0, 1, ..., p : Ef f ( ˆβ_i, ˆβ_iS) = Σ( ˆβ) i,i Σ( ˆβM₎ i,i = _c −cψ(x)φ(x)dx ₂ _c −c[ψ(x)]2φ(x)dx = _1.547 −1.547(x(1 − (1.547x )2)2) 1√2πexp −x2 2 dx ₂ _1.547 −1.547(x(1 − (1.547x )2)2)2 1√2πexp _−x2 2 dx = 1 √ 2π _1.547 −1.547 5x4 1.5474 − 6x 2 1.5472 + 1 exp −x2 2 dx ₂ 1 √ 2π _1.547 −1.547x2(1 − (1.547x )2)4exp _−x2 2 dx = 0.0241 0.0841 = 0.287.

Voici un tableau donnant l'ecacité, Eff, et le point de rupture, θ d'un estimateur selon la valeur donnée à la constante c [RY84].

c K θ E 1.547 0.1995 50% 28.7% 1.756 0.2312 45% 37.0% 1.988 0.2634 40% 46.2% 2.251 0.2957 35% 56.0% 2.560 0.3278 30% 66.1% 2.937 0.3593 25% 75.9% 3.420 0.3899 20% 84.7% 4.096 0.4194 15% 91.7% 5.182 0.4475 10% 96.6% 38

(49)

On remarque que plus on augmente la valeur de c, plus l'ecacité du S-estimateur aug-mente et plus la valeur de son point de rupture diminue.

2.3 MM-estimation des paramètres du modèle

La MM-estimation des paramètres du modèle est une combinaison de la S-estimation et de la M-estimation des paramètres du modèle. On estime d'abord les paramètres de régression en utilisant la S-estimation (qui minimise la dispersion des résidus) et on applique ensuite la M-estimation en utilisant àla première itération les paramètres du modèle obtenus par S-estimation. De plus, pour chaque étape de la M-estimation, on utilise la même estimation de l'écart-type, ˆsMM_{, aussi obtenue avec la S-estimation. Cela}

permet d'obtenir des estimateurs avec un haut point de rupture et plus ecace que la M-estimation et la S-estimation. Ainsi, le MM-estimateur est la solution de :

∂L(β) ∂β₀ β= ˆβM = n i=1 ψ y_i − ( ˆβ₀M + ˆβ₁Mx_i,1+ ... + ˆβ_pMx_i,p) ˆsMM ₋₁ ˆsMM = 0 ∂L(β) ∂β₁ β= ˆβM = n i=1 ψ y_i − ( ˆβ₀M + ˆβ₁Mx_i,1+ ... + ˆβ_pMx_i,p) ˆsMM _−x i,1 ˆsMM = 0 ... ∂L(β) ∂β_p β= ˆβM = n i=1 ψ y_i− ( ˆβM 0 + ˆβ1Mxi,1+ ... + ˆβpMxi,p) ˆsMM −xi,p ˆsMM = 0. (2.12)

où ρ satisfait aux conditions C1, C2 et C3 ainsi qu'àla dénition 2.2 et ψ est la dérivée de ρ. Un choix usuel pour la fonction ρ est la fonction proposée par Tukey (2.2).

Méthodes de régression robuste