• Aucun résultat trouvé

4.3 D´ econvolution des erreurs

4.3.2 Biais dˆ us aux erreurs de mesure

Quittons l’hypoth`ese simplificatrice d’une distribution gaussienne des variables sans erreur y. Prenons une distribution unidimensionnelle de densit´e quelconque pour les y ; la seule hypoth`ese que l’on fera est qu’elle soit deux fois d´erivable et tendant vers 0 en ±∞. La figure 4.5 en est un exemple. Tout au long des paragraphes qui suivent, on conservera cet exemple tout `a fait quelconque d’une distribution bimodale. On a pris ici la densit´e de probabilit´e f (y) = 1 3π( 1 1 + (y − 4)2 + 1 1 + (y/2)2)

parce qu’elle permettait de pr´esenter la m´ethode sans compliquer les calculs. On peut v´erifier qu’il s’agit bien d’une densit´e de probabilit´e puisque f (y) ≥ 0 et R−∞+∞f (y)dy = 1. Conservant dans cet exemple une loi d’erreur gaussienne pour les x, on va ´etudier ce qu’il se passe quand on veut comparer les x aux y, en fonction de la variable observ´ee x. Ce type de comparaison est tr`es courant ; l’exemple en est cit´e `a deux reprises, §6.2.3 et §6.5.1, en ´etudiant la variation de la diff´erence entre deux d´eterminations de la parallaxe en fonction de la parallaxe observ´ee.

En prenant une dispersion des erreurs standards de mesure de 0.5, la distribution simul´ee des x se trouve sur la figure 4.6. Pour faire cette simulation (cf §4.2.4), on a g´en´er´e une variable al´eatoire z = F (y) suivant une loi uniforme. On calcule y = F−1(z) par

z = F (y) = 1

3π(Arctg(y − 4) + 2Arctg(y/2) + 3π

2 ) d’o`u, en posant α = 3πz − 3π2 , on est amen´e `a r´esoudre

y3 − (5α + 4)y2+ (16α − 8)y + 4α + 16 = 0

On est dans le cas o`u l’on a trois racines r´eelles, ´equiprobables, et l’on en tire donc une au hasard. A partir de cette ((vraie)) variable y, on tire ensuite une variable observ´ee x; N (y, 0.52).

Calculons maintenant la diff´erence x − y, et regardons sa variation en fonction de la variable observ´ee x. Comme on a beaucoup de points, et pour que le dessin reste lisible, on va faire des moyennes des x − y sur des ((tranches)) de x (ici, on a pris pour chaque point en abscisse la m´ediane des ordonn´ees des 500 points situ´es de part et d’autre de x). Et l’on voit apparaˆıtre une variation tr`es importante en fonction des x, figure 4.7. Ceci pourrait sembler inattendu puisque les x sont distribu´es sym´etriquement autour des y et que l’on a E[X] = Y .

Cet artefact provient du fait que les variables observ´ees sont la convolution d’une loi d’erreur et d’une distribution non uniforme des variables sans erreur. Intuitivement, on comprend bien que (par d´efinition) la vraie variable a plus de probabilit´e de se trouver sur un mode de la distribution que de part et d’autre de ce mode ; `a cause des erreurs, la variable observ´ee va donc se retrouver plus fr´equemment sur les ailes de la distribution que la variable sans erreur de mesure.

Le lissage ne cr´ee pas ce biais, il ne fait que le mettre mieux en ´evidence ; en effet, cha- cun des points ´etant moyenn´e sur n observation, l’estimation de la position des ordonn´ees est am´elior´ee d’un facteur ∝ √1

n. Le biais sera visible d`es que seront faites des moyennes

sur une variable avec une erreur de mesure, et que l’on regardera le comportement d’une autre variable entˆach´ee d’erreur et non ind´ependante de la premi`ere en fonction de ces moyennes. Si l’on avait fait le graphe des x − y en fonction des y, il n’y aurait pas eu de biais, parce que les y n’ont pas d’erreur de mesure. Autrement dit, on a E[X] = Y (d’o`u E[X − Y |Y ] = 0) mais E[X − Y |X] 6= 0.

Si l’ensemble de la distribution est consid´er´ee, le biais se compensera. Mais d`es que l’on contraindra d’une quelconque mani`ere une variable affect´ee d’une erreur de mesure (en ne gardant dans un ´echantillon que celles inf´erieures/sup´erieures `a telle limite sur la variable observ´ee), alors une statistique calcul´ee `a partir des donn´ees observ´ees sera biais´ee par rapport `a celle qui serait obtenue avec les mˆemes variables sans erreur.

Pour prendre des exemples en Astronomie, si l’on veut calibrer la magnitude absolue d’un groupe d’´etoiles en utilisant les parallaxes trigonom´etriques avec l’erreur relative la plus petite, cela revient `a prendre les parallaxes (observ´ees) les plus grandes, cr´eant un biais sur les magnitudes absolues qui en r´esultent. C’est le biais d´ecrit par de nombreux auteurs, notamment Trumpler & Weaver (1953) et Lutz & Kelker (1973).

Calcul du biais

Il est possible de calculer analytiquement le biais que l’on observe, et c’est heureux puisque l’on ne peut pas ´eviter ce biais. Pour cela, la d´emarche suivie est bay´esienne : la loi des x est prise conditionnellement `a y, et l’on suppose que l’on connaˆıt la loi a priori des y.

Pour chaque variable observ´ee x, quelle est l’esp´erance conditionnelle E[Y |X] de la variable sans erreur y sachant x ?

La densit´e de probabilit´e conditionnelle f (y|x) s’´ecrit par la formules de Bayes :

f (y|x) = f (x|y)f (y)f (x)

= R+∞f (x|y)f (y)

et par d´efinition de l’esp´erance math´ematique

E[Y |X] = R yf (y|x)dy

= R yf (x|y)f (y)dyR f (x|y)f (y)dy

Iciby = E[Y |X] est l’estimateur bay´esien ponctuel de la variable sans erreur y connaissant la variable x. Dans le paragraphe pr´ec´edent (4.3.1), par contre, on a calcul´e l’estimation qui maximisait la densit´e conditionnelle a posteriori. Ce sont deux des formes d’estima- tion bay´esienne ; on montre d’ailleurs [A¨ıvazian et al., 1986, p. 240] que ces deux estima- tions convergent vers l’estimation du maximum de vraisemblance lorsque n → ∞, et ceci ind´ependamment du choix de f (y).

En l’appliquant `a l’exemple que nous avons pris plus haut, on a f (x|y) = 1 0.5√2πe −1 2 (x−y)2 0.52 f (y) = 1 (1+(y−4)1 2 + 1 1+(y/2)2)

ce qui nous permet de calculery. Quant au biais x −b by, il est repr´esent´e en fonction de x sur la figure 4.8.

L’exemple que l’on a choisi montre bien le comportement du biais, combien il peut ˆetre important, mais surtout l’int´erˆet de l’analyse bay´esienne qui permet de trouver la formulation analytique. Qu’on ne s’y trompe pas, l’estimation

b

y = R yf (x|y)f (y)dy

R f (x|y)f (y)dy (4.5)

n’est pas une simple m´ethode pour calculer le biais, mais v´eritablement la mise en ´evidence d’un estimateur meilleur (au sens du risque) pour estimer la vraie variable, quand on connaˆıt la variable observ´ee, que ne l’est cette variable observ´ee.

Ce qui pose probl`eme dans toute approche bay´esienne, c’est naturellement le choix de la distribution a priori et c’est d’ailleurs ce qui divise les statisticiens. Comme nous l’in- diquons au paragraphe suivant, il existe n´eanmoins un cas particulier o`u la connaissance de la densit´e a priori n’est pas indispensable.