Biais dˆ us aux erreurs de mesure - D´ econvolution des erreurs

4.3 D´ econvolution des erreurs

4.3.2 Biais dˆ us aux erreurs de mesure

Quittons l’hypothèse simplificatrice d’une distribution gaussienne des variables sans erreur y. Prenons une distribution unidimensionnelle de densité quelconque pour les y ; la seule hypothèse que l’on fera est qu’elle soit deux fois dérivable et tendant vers 0 en ±∞. La figure 4.5 en est un exemple. Tout au long des paragraphes qui suivent, on conservera cet exemple tout à fait quelconque d’une distribution bimodale. On a pris ici la densité de probabilité f (y) = 1 3π( 1 1 + (y − 4)2 + 1 1 + (y/2)2)

parce qu’elle permettait de présenter la méthode sans compliquer les calculs. On peut vérifier qu’il s’agit bien d’une densité de probabilité puisque f (y) ≥ 0 et R_−∞+∞f (y)dy = 1. Conservant dans cet exemple une loi d’erreur gaussienne pour les x, on va étudier ce qu’il se passe quand on veut comparer les x aux y, en fonction de la variable observée x. Ce type de comparaison est très courant ; l’exemple en est cité à deux reprises, §6.2.3 et §6.5.1, en étudiant la variation de la différence entre deux déterminations de la parallaxe en fonction de la parallaxe observée.

En prenant une dispersion des erreurs standards de mesure de 0.5, la distribution simulée des x se trouve sur la figure 4.6. Pour faire cette simulation (cf §4.2.4), on a généré une variable aléatoire z = F (y) suivant une loi uniforme. On calcule y = F−1(z) par

z = F (y) = 1

3π(Arctg(y − 4) + 2Arctg(y/2) + 3π

2 ) d’où, en posant α = 3πz − 3π₂ , on est amené à résoudre

y3 − (5α + 4)y2_{+ (16α − 8)y + 4α + 16 = 0}

On est dans le cas où l’on a trois racines réelles, équiprobables, et l’on en tire donc une au hasard. A partir de cette ((vraie)) variable y, on tire ensuite une variable observée x; N (y, 0.52).

Calculons maintenant la différence x − y, et regardons sa variation en fonction de la variable observée x. Comme on a beaucoup de points, et pour que le dessin reste lisible, on va faire des moyennes des x − y sur des ((tranches)) de x (ici, on a pris pour chaque point en abscisse la médiane des ordonnées des 500 points situés de part et d’autre de x). Et l’on voit apparaˆıtre une variation très importante en fonction des x, figure 4.7. Ceci pourrait sembler inattendu puisque les x sont distribués symétriquement autour des y et que l’on a E[X] = Y .

Cet artefact provient du fait que les variables observées sont la convolution d’une loi d’erreur et d’une distribution non uniforme des variables sans erreur. Intuitivement, on comprend bien que (par définition) la vraie variable a plus de probabilité de se trouver sur un mode de la distribution que de part et d’autre de ce mode ; à cause des erreurs, la variable observée va donc se retrouver plus fréquemment sur les ailes de la distribution que la variable sans erreur de mesure.

Le lissage ne crée pas ce biais, il ne fait que le mettre mieux en évidence ; en effet, cha- cun des points étant moyenné sur n observation, l’estimation de la position des ordonnées est améliorée d’un facteur ∝ √1

n. Le biais sera visible d`es que seront faites des moyennes

sur une variable avec une erreur de mesure, et que l’on regardera le comportement d’une autre variable entâchée d’erreur et non indépendante de la première en fonction de ces moyennes. Si l’on avait fait le graphe des x − y en fonction des y, il n’y aurait pas eu de biais, parce que les y n’ont pas d’erreur de mesure. Autrement dit, on a E[X] = Y (d’où E[X − Y |Y ] = 0) mais E[X − Y |X] 6= 0.

Si l’ensemble de la distribution est considérée, le biais se compensera. Mais dès que l’on contraindra d’une quelconque manière une variable affectée d’une erreur de mesure (en ne gardant dans un échantillon que celles inférieures/supérieures à telle limite sur la variable observée), alors une statistique calculée à partir des données observées sera biaisée par rapport à celle qui serait obtenue avec les mêmes variables sans erreur.

Pour prendre des exemples en Astronomie, si l’on veut calibrer la magnitude absolue d’un groupe d’étoiles en utilisant les parallaxes trigonométriques avec l’erreur relative la plus petite, cela revient à prendre les parallaxes (observées) les plus grandes, créant un biais sur les magnitudes absolues qui en résultent. C’est le biais décrit par de nombreux auteurs, notamment Trumpler & Weaver (1953) et Lutz & Kelker (1973).

Calcul du biais

Il est possible de calculer analytiquement le biais que l’on observe, et c’est heureux puisque l’on ne peut pas éviter ce biais. Pour cela, la démarche suivie est bayésienne : la loi des x est prise conditionnellement à y, et l’on suppose que l’on connaˆıt la loi a priori des y.

Pour chaque variable observ´ee x, quelle est l’esp´erance conditionnelle E[Y |X] de la variable sans erreur y sachant x ?

La densité de probabilité conditionnelle f (y|x) s’écrit par la formules de Bayes :

f (y|x) = f (x|y)f (y)_{f (x)}

= R+∞f (x|y)f (y)

et par définition de l’espérance mathématique

E[Y |X] = R yf (y|x)dy

= R yf (x|y)f (y)dy_{R f (x|y)f (y)dy}

Ici_by = E[Y |X] est l’estimateur bayésien ponctuel de la variable sans erreur y connaissant la variable x. Dans le paragraphe précédent (4.3.1), par contre, on a calculé l’estimation qui maximisait la densité conditionnelle a posteriori. Ce sont deux des formes d’estimation bayésienne ; on montre d’ailleurs [A¨ıvazian et al., 1986, p. 240] que ces deux estima- tions convergent vers l’estimation du maximum de vraisemblance lorsque n → ∞, et ceci indépendamment du choix de f (y).

En l’appliquant `a l’exemple que nous avons pris plus haut, on a f (x|y) = 1 0.5√2πe −1 2 (x−y)2 0.52 f (y) = _3π1 (_1+(y−4)1 2 + 1 1+(y/2)2)

ce qui nous permet de calculery. Quant au biais x −_b _by, il est repr´esent´e en fonction de x sur la figure 4.8.

L’exemple que l’on a choisi montre bien le comportement du biais, combien il peut être important, mais surtout l’intérêt de l’analyse bayésienne qui permet de trouver la formulation analytique. Qu’on ne s’y trompe pas, l’estimation

y = R yf (x|y)f (y)dy

R f (x|y)f (y)dy (4.5)

n’est pas une simple méthode pour calculer le biais, mais véritablement la mise en évidence d’un estimateur meilleur (au sens du risque) pour estimer la vraie variable, quand on connaˆıt la variable observée, que ne l’est cette variable observée.

Ce qui pose problème dans toute approche bayésienne, c’est naturellement le choix de la distribution a priori et c’est d’ailleurs ce qui divise les statisticiens. Comme nous l’in- diquons au paragraphe suivant, il existe néanmoins un cas particulier où la connaissance de la densité a priori n’est pas indispensable.

Dans le document Contribution à la validation statistique des données d'Hipparcos‎ : catalogue d'entrée et données préliminaires (Page 80-83)