• Aucun résultat trouvé

Régression robuste

N/A
N/A
Protected

Academic year: 2022

Partager "Régression robuste"

Copied!
50
0
0

Texte intégral

(1)

Régression robuste

Gilbert Saporta

Conservatoire National des Arts et Métiers http://cedric.cnam.fr/~saporta

Décembre 2012

(2)

• En présence de contamination par une fraction d’observations ne suivant pas le modèle (données « aberrantes ») les

moindres carrés sont peu robustes

• Les méthodes robustes ont pour but de trouver le modèle correspondant à la

majorité des observations

(3)

1.Les moindres carrés

• Fonction de perte:

• Minimisation de E(L) f optimal:

f(x)= E(Y/x)

• Hypothèse de régression linéaire:

E(Y/x)=β01x

en régression multiple: E(Y/x)=x’ β

( )

2

( ; ( )) ( )

L y f x = yf x

(4)

• Estimateur des moindres carrés ˆ

0

Equations normales

projecteur

W =

-1

-1

y = Xb = Ay

y - Xb (y - Xb)'Xu u X'y = X'Xb

b = (X'X) X'y

A = X(X'X) X'

b estimateur de variance minimale de β parmi les estimateurs linéaires sans biais

• estimateur du maximum de vraisemblance si résidus gaussiens iid

(5)

• Démo

cours de Marc Bourdeau (Montréal) sur le modèle linéaire

http://www.agro-montpellier.fr/cnam- lr/statnet/cours_autre.htm

(6)

• Sensibilité aux valeurs extrêmes

– Ne pas confondre observations aberrantes et

observations influentes (au sens de l’écart au modèle)

(7)

• Différents types de points aberrants:

(8)

Résidus et influence des observations

• Résidu : vecteur

• La « hat matrix » ou projecteur

• Les termes diagonaux hi y - yˆ

' ˆ

= -1 =

A X(X'X) X y Ay

1 1 1

n

i i

h h p

≤ ≤

= +

(9)

• Résidu:

– espérance nulle,

• Résidu studentisé

• Résidu prédit (en enlevant i)

• Press: somme des carrés des résidus prédits

• Influence d’une observation sur les estimations des coefficients: la distance de Cook

ˆ 2

( i i) (1 i)

V y y = σ h

ˆ ˆ 1

i i

i

y y

σ h

( )

ˆ ˆ

1

i i

i i

i

y y y y

h

=

(

( )

)

'

(

( )

)

( )2

2

1 ˆ ˆ

( 1) ˆ 1 1

i i i

i i i

D y y h

p σ p h

= =

+ +

b b X'X b b

(10)

• Insuffisants pour détecter toutes les valeurs aberrantes:

– effet de masque

– estimations non robustes

• Nécessité d’utiliser des indicateurs robustes de tendance centrale et de dispersion pour calculer une variante robuste de la distance de Mahalanobis

(11)
(12)

2.Régression en norme L

1

(LAD)

• Fonction de perte:

• Minimisation de E(L) f optimal:

f(x)= Med(Y/x)

• En régression linéaire simple sur échantillon

( ; ( )) ( ) L y f x = −y f x

1

min

n

i i

i

y a bx

=

− −

(13)

• http://www.math.wpi.edu/Course_Material s/SAS/lablets/7.3/7.3c/index.html

(14)

• 50 ans plus ancien que les moindres carrés: Boscovitch 1757

• Résolution plus difficile (surtout en régression multiple)

– Pas de solution analytique – Nécessité d’un algorithme

• Propriété:

– La droite de régression L1 passe par deux des points

(15)

• Algorithme LAD simple (Birkes & Dodge, 1993)

– Prendre un point (x1,y1), trouver la meilleure droite passant par ce point. Elle passe par au moins un autre point noté (x2,y2) – Trouver la meilleure droite passant par (x2,y2) . Elle passe par

(x3,y3)

– Continuer jusqu’ à ce que (xk,yk) = (xk-1,yk-1)

• Possibilité de non-unicité ou de dégénérescence

• Régression LAD multiple

– Programmation linéaire – p+1 résidus sont nuls

(16)

• Erreurs standard asymptotiques

avec f densité de ε

(

1

)

2

( )

1

( )ˆ '

4 (0) V

f

β X X

(17)

3.M-régression

• Issue des M-estimateurs de Huber

• Exemple: fonction de perte quadratique jusqu’à c, linéaire au delà

(18)

• Pour c grand, on retrouve les mco, pour c=0 la régression L1

• Si σ= 1, c=1.5 donne une estimation

d’efficacité asymptotique 95% dans le cas gaussien

(19)

• ρ fonction convexe paire

– M-estimateur: maximum de vraisemblance avec erreurs de densité proportionnelle à exp(- ρ(u))

• En dérivant:

• Notation usuelle ψ = ρ’

• Moindres carrés pondérés

( )

1

min

n

i i

i

ρ y

=

x β

( )

1

' ˆ ' 0

n

i i i

i

ρ y

=

=

x β x

( )

ρ '

(

y x βˆ

)

(20)

Propriétés

• Si σ est inconnu on minimise avec a>0

• La matrice de covariance des estimateurs est asymptotiquement proportionnelle à celle des moindres carrés

1 n

i i

i

y a

ρ σ

= σ

 +

x β

(21)
(22)

Weight Function Option Default a, b, c

andrews WF=ANDREWS<(C=c)>

bisquare WF=BISQUARE<(C=c)>

cauchy WF=CAUCHY<(C=c)>

fair WF=FAIR<(C=c)>

hampel WF=HAMPEL<( <A=a> <B=b> <C=c>)>

huber WF=HUBER<(C=c)>

logistic WF=LOGISTIC<(C=c)>

median WF=MEDIAN<(C=c)>

talworth WF=TALWORTH<(C=c)>

welsch WF=WELSCH<(C=c)>

4.Fonction de poids

Proc ROBUSTREG de SAS

(23)
(24)

5.Régression LTS

(Least Trimmed Squares) de Rousseuw

• Basée sur le sous ensemble de h individus (parmi n) où les mco donnent la plus petite somme des carrés des résidus. h est choisi entre n/2 et n . La valeur h=(3n+p+1)/4 est recommandée.

(25)

Complément: notion de « point de rupture»

d’un estimateur

• Fraction des données qui peuvent être arbitrairement changées sans changer arbitrairement la valeur de l’estimateur.

• Deux cas : n fini, n infini (pt de rupture asymptotique) – Ne peut être > 0.5

– Asymptotiquement:

• Nul pour la moyenne (si une valeur deveint infinie, la moyenne aussi)

• 0.5 pour la médiane

– n fini

(26)

Bibliographie

Birkes, D., Dodge, Y. (1993) Alternative methods of regression, Wiley

Rousseeuw, P.J. and Leroy, A.M. (1987), Robust Regression and Outlier Detection, New York: John Wiley & Sons, Inc.

(27)

Régression non-paramétrique

Gilbert Saporta

Conservatoire National des Arts et Métiers http://cedric.cnam.fr/~saporta

Décembre 2012

(28)

• Estimation de l’espérance conditionnelle E(Y/x0)= f(x0) , ou fonction de régression.

• Approche similaire à l’estimation de densité par la méthode du noyau

• Premières tentatives inspirées des moyennes mobiles:

– les k plus proches voisins: moyenne de y pour les k-ppv de x0

– moyenne des y sur une fenêtre de largeur fixe centrée sur x0

(29)
(30)

Méthode de la fenêtre mobile

• Moyenne des yi dans un voisinage autour de x0: [x0-h/2; x0+h/2]

[ ]

[ ]

0 0

0 0

/2; /2 1

0

/2; /2 1

1 ( )

ˆ ( )

1 ( )

n

i x h x h i

i n

x h x h i i

y x

f x

x

+

=

+

=

=

(31)

Utilisation d’un noyau continu: l’estimateur de Nadaraya-Watson

Noyaux classiques:

– Epanechnikov

0 1

0

0 1

ˆ ( / )

n

i i i

n

i i

x x

K y

E Y X x h

x x

K h

=

=

= =

3 2

( ) (1- ) si 1, 0 sinon K u = 4 u u

(32)
(33)

• http://www.cs.uic.edu/~wilkinson/Applets/s moothers.html

(34)
(35)

• Biais et variance pour des xi fixés

( )

( )

( )

0

0 1

0 0

1 2

2 1

0 2

2 1

( ) ( )

ˆ ( ) ( )

ˆ ( ) i

i

i i

n

i i

i

n i i n

i n

i

x x

w K

h

w f x f x E f x f x

w

w V f x

w σ

=

=

=

=

= 

=

=

(36)

Si les xi sont nombreux et équidistants sur [a;b]

Valable si la fenêtre est incluse dans [a;b]

(

0 0

) (

0 0

)

2

2 0

ˆ ( ) ( ) ( ) ( ) ( )

"( ) ( ) 2

E f x f x K u f x uh f x du h g x u K u du

+

(37)

• Problèmes d’estimation aux bornes

(38)

• Régression linéaire locale

– Résout le problème de l’asymetrie du noyau tronqué aux bornes. Enlève le biais à l’ordre 1 – On résout en chaque point x0 le problème de

moindres carrés pondérés:

– Nota: formules globales (pour tout x), mais chacune utilisée seulement en x0

[ ]

0 0

0 2

0 0

( ), ( )

1

min ( ) ( )

n

i

i i

x x

i

x x

K y x x x

α β h

α β

=

 −  − −

 

 

(39)
(40)

• Les creux et les bosses

– La régression linéaire locale est biaisée dans les zones de courbure forte

(41)

• Régression polynomiale locale

0 0

2 0

0 0

( ), ( )

1 1

min ( ) ( )

i

n d

i j

i j

x x

i j

x x

K y x x x

α β h α β

= =

 

∑ ∑

(42)

• Estimation linéaire et noyau équivalent

– moindres carrés pondérés

X matrice à n lignes et d+1 colonnes des xj

( )

1

'

0 0 0 0

0 1

ˆ ( ) ( ) ( )

= n i ( ) i

i

f x x x

l x y

=

=

x X'W X X'W y

0

0 ,

( ) matrice diagonale n n de terme K x xi

x h

W

(43)
(44)

• Choix de h

– validation croisée

• Méthode proche: LOESS ou LOWESS

• Extension possible à la régression logistique

(45)

SAS INSIGHT

(46)
(47)
(48)
(49)

Avantages et inconvénients

• Utile si la forme de la régression est totalement inconnue

• Méthode adaptative qui s’ajuste automatiquement mais

• Pas de formule explicite, prévision délicate en dehors du domaine (extrapolation)

• Généralisation difficile en régression multiple

« curse of dimensionality »

(50)

Bibliographie

Cleveland, W.S.; Devlin, S.J. (1988). Locally-Weighted Regression:

An Approach to Regression Analysis by Local Fitting . Journal of the American Statistical Association 83 (403): 596–610.

Droesbeke, J.J., Saporta G. (éditeurs) (2011) Approches non paramétriques en régression, Editions Technip

Hastie, T., Tibshirani,R., Friedman, J.( 2009): The Elements of Statistical Learning , 2nd edition, chapitre 6, Springer, http://www- stat.stanford.edu/~hastie/Papers/ESLII.pdf

Lejeune, M. (1985), Estimation non paramétrique par noyaux :

régression polynomiale mobile, Revue de Statistique Appliquée, 33, 43-68.

Références

Documents relatifs

La Figure 1 repr´ esente la fonction de r´ egression estim´ ee par les m´ ethodes GLLiM (en bleu) et SLLiM (en noir) pour K = 2 sur les donn´ ees compl` etes (Figure 1a) et sur

On peut également utiliser un tableur pour obtenir cette médiane. Les notes sont rangées dans l’ordre croissant... .. 2) Pour chacune des deux stations, déterminer à l’aide

On obtient les réponses suivantes : 10 élèves sont des enfants uniques ; 15 élèves ont un frère ou une sœur ; 4 élèves ont deux frères et sœurs ; 1 élève a 3 frères et sœurs

On considère dans la suite, la série statistique définie par le tableau ci-contre. De manière similaire, dans le cas de données regroupées, la classe modale désigne la classe la

5. Voici les résultats de 28 élèves à un cours de conduite. a) Calcul les mesures de tendance centrale de chacun de ces distribution. Indique si chacun des énoncés suivants est vrai

Notons encore que dans le cas d'une régression avec constante, cette opération de cen- trage conduit à annuler la colonne associée à la constante, qu'il s'agira alors d'éliminer

a) la propriété (2.6.) établit les propriétés asymptotiques de la régression en norme £ , les conditions sur les scores étant vérifiées (convergence et donc

Conception de câblages robustes dans les parcs éoliens : recherche d’une Arborescence de Steiner ”robuste”.. Cédric Bentz, Marie-Christine Costa, Daniel Porumbel,