• Aucun résultat trouvé

Dans cette section, on présente quelques éléments de bibliographie et concepts relatifs à la robustesse en statistique, dans un contexte général c’est-à-dire non spéci- fique à l’estimation par sondage en population finie. Ces différents éléments, même s’ils ne sont pas directement liés à notre problématique, peuvent faciliter la compré- hension des intuitions qui sous-tendent notre démarche. Les notions présentées ici sont tirées principalement deHampel et al.(2011).

L’objectif de la statistique robuste est de produire des estimateurs dont les perfor- mances sont proches de celles des estimateurs non robustes lorsque le modèle est vé- rifié, mais qui en outre ont de bonnes performances pour de "petites déviations" par rapport à ce modèle. Ces petites déviations peuvent signifier que le modèle considéré est un peu différent de ce qui a été spécifié ou encore que l’hypothèse d’indépendance des données est remise en cause, ou bien qu’une petite partie de l’échantillon (les out- liers) ne suit pas la loi donnée. Dans notre contexte des sondages, c’est ce dernier cas qui nous intéresse plus particulièrement.

L’ouvrage deHuber(1964) constitue une des références sur la statistique robuste. La notion de robustesse qualitative, qui y est définie signifie qu’une petite déviation par rapport au modèle (dans notre cas un petit nombre d’unités influentes) doit engendrer une petite modification de l’estimateur. Un estimateur robuste doit donc être bon "aux

environs du modèle" (ici pour un petit nombre d’unités influentes) et "pas tellement plus mauvais" qu’un estimateur non robuste lorsque le modèle est vérifié.

On risque donc de perdre en optimalité lorsque le modèle est exact, mais de ga- gner dans tous les autres cas. Ce compromis s’illustre en général par un compromis biais/variance : les estimateurs robustes sont fréquemment de plus faible variance mais au prix d’un biais potentiel. L’enjeu sera donc de trouver le paramétrage opti- mal de la méthode utilisée afin de minimiser un critère qui combine biais et variance, en l’occurrence l’erreur quadratique moyenne.

Pour qu’un estimateur soit robuste, une des exigences est qu’une unité ne puisse pas avoir à elle seule un trop grand impact sur l’estimateur final. Ainsi un nombre ré- duit d’unités influentes ne doit pas suffire à rendre trop instables les estimations. En population infinie, cette notion d’impact d’une unité peut être mesurée à l’aide de la

fonction d’influence.

Ainsi, considérons une variable d’intérêt Y de distribution F. On dispose d’un échantillon Y1, . . . , Ynde n observations indépendantes identiquement distribuées. On

s’intéresse à une fonction de la variable d’intérêtθ = θ(F). La fonction d’influence re- présente l’influence incrémentale d’un nouveau point en Yi surθ(F) :

IF(θ,F,Yi) = 1 ι ι−→0lim µ θ³(1 − ι)F + ιδYi ´ − θ(F) ¶ . (3.1)

D’après notre définition de la robustesse, il faut donc que cette fonction d’influence soit bornée. Dans la suite, nous verrons que nous utiliserons plutôt une autre mesure d’influence, appelée biais conditionnel, plus adaptée au contexte de l’estimation en population finie. En effet, en population infinie, l’objectif est généralement d’estimer un paramètre de la population des inliers alors qu’en sondages on s’intéresse à des paramètres de l’ensemble de la population y compris les outliers. Des critères de ro- bustesse comme une fonction d’influence bornée ou un point de rupture élevé ne sont donc pas forcément les plus pertinents.

Parmi les estimateurs robustes, on peut citer les M-estimateurs, proposés par

Hampel et al.(2011), qui sont une extension des méthodes de maximisation telles que

le maximum de vraisemblance. Ces méthodes consistent à trouver l’estimateur deθ qui minimisePn

i =1ρ(Xi,θ∗). Cela revient à trouverθ∗tel que n

X

i =1

Ψ(Xi,θ∗) = 0

avecΨ la dérivée de ρ par rapport à θ.

Pour ces estimateurs, la fonction d’influence est proportionnelle àΨ. Pour qu’elle soit bornée et donc que l’estimateur soit robuste, il suffit donc queΨ soit bornée.

Les estimateurs de Huber proposés dansHuber(1964) pour l’estimation du para- mètre de tendance centrale d’une variable Y réelle constituent un cas particulier de M-estimateurs. La fonctionΨ utilisée est alors de la forme :

ψc(x) =    x si x ∈ [−c;c] c si x > c −c si x < −c, (3.2)

avec c ∈ R+une constante qu’il faut choisir judicieusement : plus c augmente, plus on se rapproche de la moyenne (dont on peut montrer aisément qu’elle correspond au choix de la fonction identitéψ(x) = x) : l’influence n’est alors pas bornée, l’estimateur n’est pas robuste, mais il n’est pas biaisé. A l’inverse, lorsque c tend vers 0, l’estimateur tend vers la médiane (voirHampel et al.(2011)). Le choix de c permet donc un équi- libre entre robustesse et biais. Cet estimateur est également celui obtenu en suivant l’approche minimax proposée parHuber(1964). Huber présente cet estimateur mini- max comme la solution optimale d’un jeu dans lequel "la nature" choisit la pire distri- bution possible au sens de l’information de Fisher dans un voisinage donné du modèle, et le statisticien choisit le meilleur estimateur (i.e. celui de plus faible variance) pour cette pire distribution. Nous verrons que cette notion de minimax est utilisée pour le choix de la constante de troncature dans les méthodes robustes en sondages.

Enfin, rappelons qu’il existe des différences notables entre la robustesse en sta- tistique classique, où l’on cherche à limiter l’impact des outliers et la robustesse en population finie, où l’on s’intéresse également aux unités influentes.

Dans le cadre de la statistique en population infinie,Muñoz-Pichardo et al.(1995) définissent le biais conditionnel comme une mesure de l’influence d’une unité i sur un estimateurθ, de la forme :

Bi(yi;θ) = E(ˆθ|Yi= yi) − θ. (3.3)