Régression robuste

(1)

Régression robuste

Gilbert Saporta

Conservatoire National des Arts et Métiers http://cedric.cnam.fr/~saporta

Décembre 2012

(2)

• En présence de contamination par une fraction d’observations ne suivant pas le modèle (données « aberrantes ») les

moindres carrés sont peu robustes

• Les méthodes robustes ont pour but de trouver le modèle correspondant à la

majorité des observations

(3)

1.Les moindres carrés

• Fonction de perte:

• Minimisation de E(L) f optimal:

f(x)= E(Y/x)

• Hypothèse de régression linéaire:

E(Y/x)=β₀+β₁x

en régression multiple: E(Y/x)=x’ β

( )

²

( ; ( )) ( )

L y f x = y − f x

(4)

• Estimateur des moindres carrés ˆ

0

Equations normales

projecteur

⊥ W = ∀

-1

y = Xb = Ay

y - Xb (y - Xb)'Xu u X'y = X'Xb

b = (X'X) X'y

A = X(X'X) X'

• b estimateur de variance minimale de β parmi les estimateurs linéaires sans biais

• estimateur du maximum de vraisemblance si résidus gaussiens iid

(5)

• Démo

cours de Marc Bourdeau (Montréal) sur le modèle linéaire

http://www.agro-montpellier.fr/cnam- lr/statnet/cours_autre.htm

(6)

• Sensibilité aux valeurs extrêmes

– Ne pas confondre observations aberrantes et

observations influentes (au sens de l’écart au modèle)

(7)

• Différents types de points aberrants:

(8)

Résidus et influence des observations

• Résidu : vecteur

• La « hat matrix » ou projecteur

• Les termes diagonaux h_i y - yˆ

' ˆ

= ^-1 =

A X(X'X) X y Ay

1 1 1

n

i i

h h p

≤ ≤

∑

= +

(9)

• Résidu:

– espérance nulle,

• Résidu studentisé

• Résidu prédit (en enlevant i)

• Press: somme des carrés des résidus prédits

• Influence d’une observation sur les estimations des coefficients: la distance de Cook

ˆ 2

( _i _i) (1 _i)

V y − y = σ − h

ˆ ˆ 1

i i

i

y y

σ h

−

( )

ˆ ˆ

1

i i

i

y y y y

− h

− = −

−

(

⁽ ⁾

)

^'

(

⁽ ⁾

)

₍ ₎²

2

1 ˆ ˆ

( 1) ˆ 1 1

i i i

D y y h

p σ p h

− −

−

− −

= = −

+ + −

b b X'X b b

(10)

• Insuffisants pour détecter toutes les valeurs aberrantes:

– effet de masque

– estimations non robustes

• Nécessité d’utiliser des indicateurs robustes de tendance centrale et de dispersion pour calculer une variante robuste de la distance de Mahalanobis

(11)

(12)

2.Régression en norme L

₁

(LAD)

• Fonction de perte:

• Minimisation de E(L) f optimal:

f(x)= Med(Y/x)

• En régression linéaire simple sur échantillon

( ; ( )) ( ) L y f x = −y f x

1

min

n

i i

i

y a bx

=

∑

− −

(13)

• http://www.math.wpi.edu/Course_Material s/SAS/lablets/7.3/7.3c/index.html

(14)

• 50 ans plus ancien que les moindres carrés: Boscovitch 1757

• Résolution plus difficile (surtout en régression multiple)

– Pas de solution analytique – Nécessité d’un algorithme

• Propriété:

– La droite de régression L₁ passe par deux des points

(15)

• Algorithme LAD simple (Birkes & Dodge, 1993)

– Prendre un point (x₁,y₁), trouver la meilleure droite passant par ce point. Elle passe par au moins un autre point noté (x₂,y₂) – Trouver la meilleure droite passant par (x₂,y₂) . Elle passe par

(x₃,y₃)

– Continuer jusqu’ à ce que (x_k,y_k) = (x_k-1,y_k-1)

• Possibilité de non-unicité ou de dégénérescence

• Régression LAD multiple

– Programmation linéaire – p+1 résidus sont nuls

(16)

• Erreurs standard asymptotiques

avec f densité de ε

(

¹

)

₂

( )

¹

( )ˆ '

4 (0) V

f

β  X X −

(17)

3.M-régression

• Issue des M-estimateurs de Huber

• Exemple: fonction de perte quadratique jusqu’à c, linéaire au delà

(18)

• Pour c grand, on retrouve les mco, pour c=0 la régression L₁

• Si σ= 1, c=1.5 donne une estimation

d’efficacité asymptotique 95% dans le cas gaussien

(19)

• ρ fonction convexe paire

– M-estimateur: maximum de vraisemblance avec erreurs de densité proportionnelle à exp(- ρ(u))

• En dérivant:

• Notation usuelle ψ = ρ’

• Moindres carrés pondérés

( )

1

min

n

i i

i

ρ y

=

∑

− ^x ^β

( )

1

' ˆ ' 0

n

i i i

i

ρ y

=

− =

∑

^x ^{β x}

( )

^ρ ^'

(

^y ⁻ ^x ^β^ˆ

)

(20)

Propriétés

• Si σ est inconnu on minimise avec a>0

• La matrice de covariance des estimateurs est asymptotiquement proportionnelle à celle des moindres carrés

1 n

i i

i

y a

ρ σ

= σ

  −  + 

   

 

∑ ^x ^β

(21)

(22)

Weight Function Option Default a, b, c

andrews WF=ANDREWS<(C=c)>

bisquare WF=BISQUARE<(C=c)>

cauchy WF=CAUCHY<(C=c)>

fair WF=FAIR<(C=c)>

hampel WF=HAMPEL<( <A=a> <B=b> <C=c>)>

huber WF=HUBER<(C=c)>

logistic WF=LOGISTIC<(C=c)>

median WF=MEDIAN<(C=c)>

talworth WF=TALWORTH<(C=c)>

welsch WF=WELSCH<(C=c)>

4.Fonction de poids

Proc ROBUSTREG de SAS

(23)

(24)

5.Régression LTS

(Least Trimmed Squares) de Rousseuw

• Basée sur le sous ensemble de h individus (parmi n) où les mco donnent la plus petite somme des carrés des résidus. h est choisi entre n/2 et n . La valeur h=(3n+p+1)/4 est recommandée.

(25)

Complément: notion de « point de rupture»

d’un estimateur

• Fraction des données qui peuvent être arbitrairement changées sans changer arbitrairement la valeur de l’estimateur.

• Deux cas : n fini, n infini (pt de rupture asymptotique) – Ne peut être > 0.5

– Asymptotiquement:

• Nul pour la moyenne (si une valeur deveint infinie, la moyenne aussi)

• 0.5 pour la médiane

– n fini

(26)

Bibliographie

• Birkes, D., Dodge, Y. (1993) Alternative methods of regression, Wiley

• Rousseeuw, P.J. and Leroy, A.M. (1987), Robust Regression and Outlier Detection, New York: John Wiley & Sons, Inc.

(27)

Régression non-paramétrique

Gilbert Saporta

Conservatoire National des Arts et Métiers http://cedric.cnam.fr/~saporta

Décembre 2012

(28)

• Estimation de l’espérance conditionnelle E(Y/x₀)= f(x₀) , ou fonction de régression.

• Approche similaire à l’estimation de densité par la méthode du noyau

• Premières tentatives inspirées des moyennes mobiles:

– les k plus proches voisins: moyenne de y pour les k-ppv de x₀

– moyenne des y sur une fenêtre de largeur fixe centrée sur x₀

(29)

(30)

Méthode de la fenêtre mobile

• Moyenne des y_i dans un voisinage autour de x₀: [x₀-h/2; x₀+h/2]

[ ]

0 0

/2; /2 1

0

/2; /2 1

1 ( )

ˆ ( )

1 ( )

n

i x h x h i

i n

x h x h i i

y x

f x

x

− +

=

− +

=

∑



(31)

Utilisation d’un noyau continu: l’estimateur de Nadaraya-Watson

Noyaux classiques:

– Epanechnikov

0 1

0

0 1

ˆ ( / )

n

i i i

n

i i

x x

K y

E Y X x h

x x

K h

=

 − 

 

 

= =

 − 

 

 

∑

3 2

( ) (1- ) si 1, 0 sinon K u = 4 u u ≤

(32)

(33)

• http://www.cs.uic.edu/~wilkinson/Applets/s moothers.html

(34)

(35)

• Biais et variance pour des x_i fixés

( )

⁽ ⁾

( )

0

0 1

0 0

1 2

2 1

0 2

2 1

( ) ( )

ˆ ( ) ( )

ˆ ( ) ⁱ

i

i i

n

i i

i

n i i n

i n

i

x x

w K

h

w f x f x E f x f x

w

w V f x

w σ

=

 − 

=  

−

− =

=  

 

 

∑

(36)

Si les x_i sont nombreux et équidistants sur [a;b]

Valable si la fenêtre est incluse dans [a;b]

(

⁰ ⁰

) ⁽

⁰ ⁰

⁾

2

2 0

ˆ ( ) ( ) ( ) ( ) ( )

"( ) ( ) 2

E f x f x K u f x uh f x du h g x u K u du

−

∫

+ −

∫



(37)

• Problèmes d’estimation aux bornes

(38)

• Régression linéaire locale

– Résout le problème de l’asymetrie du noyau tronqué aux bornes. Enlève le biais à l’ordre 1 – On résout en chaque point x₀ le problème de

moindres carrés pondérés:

– Nota: formules globales (pour tout x), mais chacune utilisée seulement en x₀

[ ]

0 0

0 2

0 0

( ), ( )

1

min ( ) ( )

n

i

i i

x x

i

x x

K y x x x

α β h

α β

=

 −  − −

 

 

∑

(39)

(40)

• Les creux et les bosses

– La régression linéaire locale est biaisée dans les zones de courbure forte

(41)

• Régression polynomiale locale

0 0

2 0

0 0

( ), ( )

1 1

min ( ) ( )

i

n d

i j

x x

i j

x x

K y x x x

α β h α β

= =

 

 −   − − 

 

   

∑ ∑

(42)

• Estimation linéaire et noyau équivalent

– moindres carrés pondérés

X matrice à n lignes et d+1 colonnes des x^j

( )

¹

'

0 0 0 0

0 1

ˆ ( ) ( ) ( )

= ⁿ _i ( ) _i

i

f x x x

l x y

−

=

∑

x X'W X X'W y

0

0 ,

( ) matrice diagonale n n de terme K x xⁱ

x h

 − 

 

 

W

(43)

(44)

• Choix de h

– validation croisée

• Méthode proche: LOESS ou LOWESS

• Extension possible à la régression logistique

(45)

SAS INSIGHT

(46)

(47)

(48)

(49)

Avantages et inconvénients

• Utile si la forme de la régression est totalement inconnue

• Méthode adaptative qui s’ajuste automatiquement mais

• Pas de formule explicite, prévision délicate en dehors du domaine (extrapolation)

• Généralisation difficile en régression multiple

« curse of dimensionality »

(50)

Bibliographie

• Cleveland, W.S.; Devlin, S.J. (1988). Locally-Weighted Regression:

An Approach to Regression Analysis by Local Fitting . Journal of the American Statistical Association 83 (403): 596–610.

• Droesbeke, J.J., Saporta G. (éditeurs) (2011) Approches non paramétriques en régression, Editions Technip

• Hastie, T., Tibshirani,R., Friedman, J.( 2009): The Elements of Statistical Learning , 2nd edition, chapitre 6, Springer, http://www- stat.stanford.edu/~hastie/Papers/ESLII.pdf

• Lejeune, M. (1985), Estimation non paramétrique par noyaux :

régression polynomiale mobile, Revue de Statistique Appliquée, 33, 43-68.