4.3 D´ econvolution des erreurs
4.3.2 Biais dˆ us aux erreurs de mesure
Quittons l’hypoth`ese simplificatrice d’une distribution gaussienne des variables sans erreur y. Prenons une distribution unidimensionnelle de densit´e quelconque pour les y ; la seule hypoth`ese que l’on fera est qu’elle soit deux fois d´erivable et tendant vers 0 en ±∞. La figure 4.5 en est un exemple. Tout au long des paragraphes qui suivent, on conservera cet exemple tout `a fait quelconque d’une distribution bimodale. On a pris ici la densit´e de probabilit´e f (y) = 1 3π( 1 1 + (y − 4)2 + 1 1 + (y/2)2)
parce qu’elle permettait de pr´esenter la m´ethode sans compliquer les calculs. On peut v´erifier qu’il s’agit bien d’une densit´e de probabilit´e puisque f (y) ≥ 0 et R−∞+∞f (y)dy = 1. Conservant dans cet exemple une loi d’erreur gaussienne pour les x, on va ´etudier ce qu’il se passe quand on veut comparer les x aux y, en fonction de la variable observ´ee x. Ce type de comparaison est tr`es courant ; l’exemple en est cit´e `a deux reprises, §6.2.3 et §6.5.1, en ´etudiant la variation de la diff´erence entre deux d´eterminations de la parallaxe en fonction de la parallaxe observ´ee.
En prenant une dispersion des erreurs standards de mesure de 0.5, la distribution simul´ee des x se trouve sur la figure 4.6. Pour faire cette simulation (cf §4.2.4), on a g´en´er´e une variable al´eatoire z = F (y) suivant une loi uniforme. On calcule y = F−1(z) par
z = F (y) = 1
3π(Arctg(y − 4) + 2Arctg(y/2) + 3π
2 ) d’o`u, en posant α = 3πz − 3π2 , on est amen´e `a r´esoudre
y3 − (5α + 4)y2+ (16α − 8)y + 4α + 16 = 0
On est dans le cas o`u l’on a trois racines r´eelles, ´equiprobables, et l’on en tire donc une au hasard. A partir de cette ((vraie)) variable y, on tire ensuite une variable observ´ee x; N (y, 0.52).
Calculons maintenant la diff´erence x − y, et regardons sa variation en fonction de la variable observ´ee x. Comme on a beaucoup de points, et pour que le dessin reste lisible, on va faire des moyennes des x − y sur des ((tranches)) de x (ici, on a pris pour chaque point en abscisse la m´ediane des ordonn´ees des 500 points situ´es de part et d’autre de x). Et l’on voit apparaˆıtre une variation tr`es importante en fonction des x, figure 4.7. Ceci pourrait sembler inattendu puisque les x sont distribu´es sym´etriquement autour des y et que l’on a E[X] = Y .
Cet artefact provient du fait que les variables observ´ees sont la convolution d’une loi d’erreur et d’une distribution non uniforme des variables sans erreur. Intuitivement, on comprend bien que (par d´efinition) la vraie variable a plus de probabilit´e de se trouver sur un mode de la distribution que de part et d’autre de ce mode ; `a cause des erreurs, la variable observ´ee va donc se retrouver plus fr´equemment sur les ailes de la distribution que la variable sans erreur de mesure.
Le lissage ne cr´ee pas ce biais, il ne fait que le mettre mieux en ´evidence ; en effet, cha- cun des points ´etant moyenn´e sur n observation, l’estimation de la position des ordonn´ees est am´elior´ee d’un facteur ∝ √1
n. Le biais sera visible d`es que seront faites des moyennes
sur une variable avec une erreur de mesure, et que l’on regardera le comportement d’une autre variable entˆach´ee d’erreur et non ind´ependante de la premi`ere en fonction de ces moyennes. Si l’on avait fait le graphe des x − y en fonction des y, il n’y aurait pas eu de biais, parce que les y n’ont pas d’erreur de mesure. Autrement dit, on a E[X] = Y (d’o`u E[X − Y |Y ] = 0) mais E[X − Y |X] 6= 0.
Si l’ensemble de la distribution est consid´er´ee, le biais se compensera. Mais d`es que l’on contraindra d’une quelconque mani`ere une variable affect´ee d’une erreur de mesure (en ne gardant dans un ´echantillon que celles inf´erieures/sup´erieures `a telle limite sur la variable observ´ee), alors une statistique calcul´ee `a partir des donn´ees observ´ees sera biais´ee par rapport `a celle qui serait obtenue avec les mˆemes variables sans erreur.
Pour prendre des exemples en Astronomie, si l’on veut calibrer la magnitude absolue d’un groupe d’´etoiles en utilisant les parallaxes trigonom´etriques avec l’erreur relative la plus petite, cela revient `a prendre les parallaxes (observ´ees) les plus grandes, cr´eant un biais sur les magnitudes absolues qui en r´esultent. C’est le biais d´ecrit par de nombreux auteurs, notamment Trumpler & Weaver (1953) et Lutz & Kelker (1973).
Calcul du biais
Il est possible de calculer analytiquement le biais que l’on observe, et c’est heureux puisque l’on ne peut pas ´eviter ce biais. Pour cela, la d´emarche suivie est bay´esienne : la loi des x est prise conditionnellement `a y, et l’on suppose que l’on connaˆıt la loi a priori des y.
Pour chaque variable observ´ee x, quelle est l’esp´erance conditionnelle E[Y |X] de la variable sans erreur y sachant x ?
La densit´e de probabilit´e conditionnelle f (y|x) s’´ecrit par la formules de Bayes :
f (y|x) = f (x|y)f (y)f (x)
= R+∞f (x|y)f (y)
et par d´efinition de l’esp´erance math´ematique
E[Y |X] = R yf (y|x)dy
= R yf (x|y)f (y)dyR f (x|y)f (y)dy
Iciby = E[Y |X] est l’estimateur bay´esien ponctuel de la variable sans erreur y connaissant la variable x. Dans le paragraphe pr´ec´edent (4.3.1), par contre, on a calcul´e l’estimation qui maximisait la densit´e conditionnelle a posteriori. Ce sont deux des formes d’estima- tion bay´esienne ; on montre d’ailleurs [A¨ıvazian et al., 1986, p. 240] que ces deux estima- tions convergent vers l’estimation du maximum de vraisemblance lorsque n → ∞, et ceci ind´ependamment du choix de f (y).
En l’appliquant `a l’exemple que nous avons pris plus haut, on a f (x|y) = 1 0.5√2πe −1 2 (x−y)2 0.52 f (y) = 3π1 (1+(y−4)1 2 + 1 1+(y/2)2)
ce qui nous permet de calculery. Quant au biais x −b by, il est repr´esent´e en fonction de x sur la figure 4.8.
L’exemple que l’on a choisi montre bien le comportement du biais, combien il peut ˆetre important, mais surtout l’int´erˆet de l’analyse bay´esienne qui permet de trouver la formulation analytique. Qu’on ne s’y trompe pas, l’estimation
b
y = R yf (x|y)f (y)dy
R f (x|y)f (y)dy (4.5)
n’est pas une simple m´ethode pour calculer le biais, mais v´eritablement la mise en ´evidence d’un estimateur meilleur (au sens du risque) pour estimer la vraie variable, quand on connaˆıt la variable observ´ee, que ne l’est cette variable observ´ee.
Ce qui pose probl`eme dans toute approche bay´esienne, c’est naturellement le choix de la distribution a priori et c’est d’ailleurs ce qui divise les statisticiens. Comme nous l’in- diquons au paragraphe suivant, il existe n´eanmoins un cas particulier o`u la connaissance de la densit´e a priori n’est pas indispensable.