• Aucun résultat trouvé

4.2 Estimations tenant compte des erreurs

4.2.2 Tests statistiques

On a commenc´e le §4.2.1 en faisant des hypoth`eses sur la nature de la distribution ´

etudi´ee (la normalit´e). Naturellement, il faut pouvoir v´erifier la v´eracit´e de ces hypoth`eses (ou, plus exactement, le fait qu’il n’existe pas d’indication que ces hypoth`eses sont er- ron´ees) : c’est le rˆole des tests statistiques d´ecrits ci-dessous.

Si l’on en croit Dudewicz & Mishra (1988), une des d´efinitions des ((statistiques)) est ((la science de la prise de d´ecision)). Les tests statistiques d’hypoth`eses peuvent ˆetre vus comme un probl`eme de d´ecision. En ce sens, on ne peut que d´esapprouver le bon mot de Lord Thorneycroft3: ce serait r´esumer les statistiques `a une analyse purement descriptive. Mais cette ´etape exploratoire, quoiqu’indispensable, n’est pas suffisante : il faut pouvoir prendre des d´ecisions si l’on ne veut pas se condamner `a stagner. Et pour prendre une d´ecision, faute de disposer d’autres renseignements, il est n´ecessaire de s’appuyer sur des tests.

En g´en´eral, les tests statistiques sont de deux types :

– les tests d’ad´equation, d’une loi empirique `a une loi th´eorique,

– les tests param´etriques, comparant un param`etre d’une loi donn´ee `a une valeur de r´ef´erence.

On aborde ci-dessous essentiellement les tests d’ad´equation.

Ces tests sont cit´es, sans ˆetre d´ecrits, pas plus que ne sera d´ecrite l’impl´ementation qui en a ´et´e effectu´ee. Pour plus de renseignement, on peut se reporter `a la bibliographie, par exemple [A¨ıvazian et al., 1986], [Dudewicz & Mishra, 1988], [Tassi, 1989], [Lecoutre & Tassi, 1987].

3.((Il ne faut pas utiliser les statistiques commes les ivrognes utilisent les r´everb`eres : pour s’appuyer et non pour s’´eclairer))

Dans cette th`ese, lorsque, sans plus de pr´ecision, on indiquera que telle distribution est gaussienne, qu’il y a ind´ependance entre deux distributions, etc, cela signifiera que le test bilat´eral ad´equat aura ou non ´et´e significatif, au seuil de 5%.

Tests de normalit´e

Le Th´eor`eme Central Limite (TCL) indique que la moyenne arithm´etique d’une s´erie de variables al´eatoires – quelle que soit leur distribution – converge vers la loi normale. Plus pr´ecis´ement, si les (xi) sont des variables al´eatoires ind´ependantes et identiquement

distribu´ees, d’esp´erance µ et de variance σ2,

n(hxii−µ)

σ converge en loi vers N (0, 1

2) lorsque

n → ∞. Grˆace `a (ou `a cause4 du) TCL, la loi normale est la distribution la plus utilis´ee, pas toujours `a bon escient, parce qu’il existe souvent des distributions plus adapt´ees `a l’´echantillon ´etudi´e et parce que le TCL fonctionne mal aux ailes des lois. Dans la pratique, le recours `a la loi normale ne fait que mal cacher la m´econnaissance du ph´enom`ene sous- jacent.

Quoi qu’il en soit, si l’on suppose que la distribution observ´ee est gaussienne, il faut pouvoir disposer de tests de normalit´e. Les tests utilis´es ici sont les suivants :

– le test de Kolmogorov [A¨ıvazian et al., 1986], la moyenne et la variance de la loi normale ´etant connue; la statistique calcul´ee est la distance (verticale) maximum entre la distribution empirique et la distribution normale ayant cette moyenne et cette variance ;

– le test de Lilliefors, variante du test de Kolmogorov, utilis´ee dans le cas (le plus fr´equent) o`u moyenne et variance sont d´etermin´es empiriquement `a partir de l’´echan- tillon ;

– le test sur l’asym´etrie, en utilisant le coefficient de Fisher γ1 = µ3

µ3/22 ; on calcule

l’asym´etrie empirique g1qui a pour variance v1 = (n−2)(n+1)(n+3)6n(n−1) ; asymptotiquement,

la statistique g1

v1 ; N (0, 1

2) [Tassi, 1989] ;

– le test sur l’aplatissement γ2 = µµ42 2

− 3 de Fisher ; on peut montrer [Tassi, 1989] que la statistique empirique g2 associ´ee `a γ2 a pour variance v2 =

24n(n−1)2

(n−3)(n−2)(n+3)(n+5) et

qu’asymptotiquement g2

v2 ; N (0, 1

2)

De nombreux autres tests existent : Shapiro-Wilk, Lin-Muldokar, Vasicek... (se r´ef´erer `a Lecoutre & Tassi (1987)).

Autres tests d’ad´equations

Il va de soi que la distribution gaussienne est un cas limite, et il faut pouvoir tester si un ´echantillon observ´e suit une autre distribution th´eorique (uniforme, poissonnienne, etc). Le test d’ad´equation utilis´e ici est le test de Kolmogorov.

Plus g´en´eralement, si l’on veut comparer deux distributions observ´ees quelconques,

Ce dernier est `a pr´ef´erer car il est plus puissant que le test du χ2. Cela se comprend

ais´ement puisque le test du χ2 impose un regroupement des donn´ees en cat´egories, faisant

´

evidemment perdre de l’information par rapport `a l’information apport´ee par les donn´ees brutes.

Tests de corr´elation et d’ind´ependance

On est souvent amen´e `a se poser la question de l’association d’une variable avec une autre, par exemple au §6.5, o`u il nous faudra v´erifier que l’erreur syst´ematique sur la parallaxe Hipparcos n’est pas li´ee aux caract´eristiques physiques des ´etoiles.

Pour clarifier les termes utilis´es, rappelons que deux variables al´eatoires sont non corr´el´ees si et seulement si E[XY ] = E[X]E[Y ] ; deux v.a. sont ind´ependantes si et seule- ment si f (x, y) = f (x)f (y). En cons´equence, deux v.a. ind´ependantes sont non corr´el´ees, mais deux v.a. non corr´el´ees ne sont pas forc´ement ind´ependantes.

Le coefficient de corr´elation usuel n’est rien d’autre qu’une mesure de la relation lin´eaire qui peut exister entre deux variables. On s’interessera donc plus particuli`erement aux tests d’ind´ependance. Quand les distributions ´etudi´ees sont quelconques, et les ´even- tuelles relations entre elles le sont ´egalement, on utilisera le test du τ de Kendall [Lecoutre & Tassi, 1987] parce qu’il est non param´etrique (on ne fait pas d’hypoth`ese sur la distri- bution des variables, contrairement au test sur le coefficient de corr´elation de Pearson), non lin´eaire (contrairement au test de Spearman), et robuste dans le sens o`u il est peu perturb´e par des points aberrants.

Certes, ce test d´etecte essentiellement les associations monotones entre les variables ´

etudi´ees ; de plus, comme il s’agit d’un test de rang, donc perdant de l’information par rapport aux donn´ees initiales, il peut ne pas reconnaˆıtre une d´ependance entre les va- riables ; en revanche, s’il d´etecte une d´ependance, c’est tr`es probablement qu’elle existe r´eellement.