• Aucun résultat trouvé

1ère Partie - CHAPITRE III :

V- 2) Test du Chi 2 (χ2):

Le test du Chi 2 consiste à comparer un histogramme empirique (c'est à dire défini par les données de l'échantillon) à l'histogramme que donnerait la loi à tester. Nous voyons déjà qu'il nous faut définir l'histogramme par un choix de nombre de classes et de position de classes.

Soit a0, a1 , a2,...,aj , ...ak+1 les limites de classes Cj+1=[aj , aj+1] avec aj < aj+1 xi appartient à la classe j si xi est compris entre aj et aj+1 avec égalité admise avec aj+1

; d'où un comptage, nous permettant de définir les effectifs "empiriques" nj de chaque classe j.

Si F(x) est la fonction de répartition à tester et n le nombre total de données, l'effectif nj* que donnerait cette loi pour la classe j serait :

nj* = n . [F(aj+1) - F(aj)]

On définit alors une distance entre ces deux histogrammes :

( )

2

1

2

* =

=

* χ

=

k

j j

j j

n n D n

Cette distance est d'autant plus grande que l'écart est grand entre les deux distributions. Elle n'est nulle que par le plus grand des hasards même si l'échantillon appartient à la loi (effet d'échantillonnage). Par ailleurs n*j n'est pas toujours entier.

⇒ Comment savoir si la distance calculée est vraiment trop grande ? Et si cela est le cas, il faut alors rejeter l'hypothèse

d'appartenance de l'échantillon à cette loi particulière.

On démontre donc que, sous certaines hypothèses, D suit une loi de probabilité appelée la loi du Chi 2, loi à un seul paramètre qui, dans cette application de test, vaut :

n = k - 1 - p où p est le nombre de paramètres estimés à partir de l'échantillon pour caler la loi

(Exemple p = 1 pour une loi de Poisson mais 2 pour une loi Gamma Incomplète).

Ce paramètre n est appelé nombre de degrés de liberté.

Il sera alors possible de lire dans une table du Chi 2, la probabilité de dépasser la valeur de D0

si l'hypothèse est exacte Pr[ D> D0 ]

Si cette probabilité au dépassement est faible : i.e. si la valeur obtenue pour D, soit D0 , avait a priori peu de chance d’être atteinte ou dépassée

⇒ il peut être conseillé de rejeter l'hypothèse.

Conseils :

1)- Choix des classes :

Il est conseillé de définir des classes équiprobables selon la fonction F(x).

D'où pour k classes : on calcule la borne aj par :

F(aj) = k j−1 2)- Nombre de classes :

Il est souhaitable que n*j > 5 ce qui détermine le nombre maximum de classes.

Remarques :

+ Choix du seuil de rejet de l'hypothèse :

Comme pour les tests d'homogénéité, cela dépend du problème et du coût des erreurs (ici 2 types d'erreurs sont possibles : accepter l'hypothèse alors qu'elle est fausse ou rejeter l'hypothèse alors qu'elle est vraie).

Une valeur classique de seuil de rejet utilisé en Hydrologie est de l'ordre de 10 ou 5 %, probabilité au dépassement de la valeur calculée du Chi 2.

+ Réponse du test :

Soit pour une définition donnée de classes, la valeur D de la distance du Chi 2. La loi du Chi 2 à k - 1 - p degrés de liberté donne une valeur P de Probabilité au non dépassement.

Cela signifie que :

Si l'hypothèse d'appartenance de l'échantillon à la population définie par la fonction de répartition F(x) était exacte, il y aurait une probabilité P de trouver une distance supérieure ou égale à D. Autrement dit, si on se fixe un seuil S de rejet, et, si on testait un très grand nombre N d'échantillons réellement tirés de la loi F(x), on serait amené à en rejeter

approximativement S*N.

La réponse est donc surtout intéressante si elle nous amène à rejeter nettement l'hypothèse. L'acceptation de l'hypothèse (cas où le Chi 2 est petit) nous dit simplement que l'échantillon présente un histogramme empirique qui n'est pas incompatible avec celui de la loi F(x); mais cela ne prouve pas que l'échantillon est effectivement tiré de cette loi….

Exemple d’Application complète :

Nous allons analyser les débits d'Octobre de 1913 à 1962 de la Loire à Blois (cf.

tableau, les débits sont en m3/s).

an Q an Q an Q an Q an Q an Q 1913 425 1914 149 1915 120 1916 291 1917 187 1918 141 1919 85 1920 439 1921 52 1922 147 1923 119 1924 281 1925 125 1926 57 1927 239 1928 82 1929 120 1930 441 1931 143 1932 289 1933 590 1934 65 1935 214 1936 136 1937 92 1938 194 1939 358 1940 444 1941 125 1942 81 1943 333 1944 505 1945 54 1946 54 1947 36 1948 74 1949 30 1950 49 1951 107 1952 203 1953 131 1954 136 1955 58 1956 367 1957 59 1958 254 1959 73 1960 562 1961 74 1962 47

Hypothèse I ( à tester… !) : "ils sont tirés d'une loi Normale"

Etape 1 : Calage des 2 paramètres de la loi Normale.

Pour une loi Normale, la méthode des Moments et la méthode du Maximum de Vraisemblance donnent les mêmes résultats.

Dans cet exemple, les 2 paramètres sont la moyenne 188.5 m3/s et l'écart type 150m3/s.

Etape 2 : Calcul d'une distance Chi 2 :

Suivant les conseils précédents, on va prendre 8 classes équiprobables au sens de la loi Normale de moyenne et écart type égaux à ceux des données.

D'où les limites de classes aj, telles que

F(aj) = (j-1)/8 et n*j = n/8 = 6.25 (au passage notons que le Chi 2 ne pourra jamais être nul puisque le nombre d'individus par classe sera évidemment entier avec l'échantillon!).

a1 = - ∞ a9 = + ∞

Calculons par exemple a2 : F(a2) = 1/8 = .125

On trouve que dans une loi Normale centrée réduite, si F(u) = .125 u = - 1.15

d'où a2 = Moyenne + (Ecart Type)*(-1.15), soit a2=16 m3/s. On calcule ainsi toutes les autres bornes, on compte les effectifs empiriques par classes et on calcule le Chi 2; ce qui donne le tableau suivant :

Limites de Effectifs nj Effectifs n*j (nj-n*j)2 classes observés dans la loi

- ∞ 16 0 6.25 39

16 87.3 17 6.25 115.6

87.3 140.7 10 6.25 14.06

140. 188.5 5 6.25 1.56

188. 236.3 3 6.25 10.56

236. 289.7 4 6.25 5.06

289. 361 3 6.25 10.56

361 + ∞ 8 6.25 3.06

d'où Chi 2 = 8

( )

2

1

2

* =

=

* χ

=

j j

ji j

n n

D n = 31.9

Le nombre de paramètres estimé pour caler la loi Normale est de 2, le nombre de classes est de 8, d'où D, si l'hypothèse est exacte, suit une loi du Chi 2 à 8-1-2 = 5 degrés de liberté.

La probabilité de dépasser 31.9 dans une loi du Chi2 à 5 degrés de liberté est infime (de l'ordre de .000004) ⇒ d'où rejet de l'hypothèse de la loi Normale.

Etape 3 : changement d'hypothèse….!

Hypothèse II (toujours à tester…) : "ils sont tirés d'une loi Log-Normale (loi de Galton)"

La loi Log-Normale est la loi Normale après transformation logarithmique de la variable.

C'est grâce à l'allure de la distribution de l'échantillon et au fait que les débits sont plutôt le résultat de produits de variables (pluie par coefficient d'écoulement) que l'on tente cette hypothèse.

Reprenons l'étape précédente mais en travaillant sur les logarithmes des débits exprimés en m3/s. D'où 2 paramètres à estimer pour la loi Normale sur les Log : la moyenne des Log 4.92 et l'écart type des Log .78.

Le tableau précédent est modifié de la façon suivante (les bornes sont exprimés en Log):

Limites nj n*j (nj-n*j)2

de classes

- ∞ 4.03 7 6.25 .87

4.03 4.39 8 6.25 3.06

4.41 4.69 4 6.25 5.06

4.69 4.94 8 6.25 3.06

4.94 5.19 4 6.25 5.06

5.19 5.47 4 6.25 5.06

5.47 5.85 6 6.25 .06

5.85 + ∞ 9 6.25 7.56

d’où Chi 2 = D = 4.7 avec 5 degrés de liberté.

La probabilité de dépasser 4.7 dans une loi du Chi 2 à 5 degrés de liberté est de 67%.

Autrement dit, si l'hypothèse d'appartenance de l'échantillon à une loi Log-Normale était vraie, il y aurait 67 % de chances de dépasser cette valeur, probabilité très élevée.

⇒Il n'y a donc pas lieu de rejeter l'hypothèse à partir de cette réponse du test.

Documents relatifs