• Aucun résultat trouvé

Bases : Probabilités, Estimation et Tests.

N/A
N/A
Protected

Academic year: 2022

Partager "Bases : Probabilités, Estimation et Tests."

Copied!
67
0
0

Texte intégral

(1)

Université René Descartes LMD Sciences de la Vie et de la Santé

UFR Biomédicale, M1 de Santé Publique

45 rue des Saints-Père, 75 006 Paris Spécialité Biostatistique

M1

COURS de BIOSTATISTIQUE I

Bases : Probabilités, Estimation et Tests.

C. Huber

(2)

1

C. Huber

Table des matières

I Probabilités. Principes des tests et de l'estimation

1 Introduction 3

2 Calcul de probabilités et variables aléatoires réelles 3

3 Quelques lois de probabilité 5

A Lois continues 5

a. Lois normales 5

b. Lois exponentielles 7

c. Lois gamma 7

d. Lois du chi deux 8

e. Lois béta 9

f. Lois de Fisher-Snedecor 10

g. Lois de Student 10

B Lois discrètes 10

a. Lois de Bernoulli 10

b. Lois binomiales 10

c. Lois multinomiales 11

d. Lois de Poisson 11

4 Approximations 12

a. Approximation normale de la binomiale 12 b. Approximation normale d'une somme 12 c. Approximation de Poisson de la binomiale 13 d. Approximation normale du chi deux 13

5 Principe des tests 14

6 Principe de l'estimation et maximum de vraisemblance 15

II Tests d'ajustement

1 Introduction 17

2 Test d'ajustement du chi2 pour une loi spécifiée 17

a. cas discret 17

b. cas continu 18

3 Test d'ajustement du chi2 avec estimation de paramètres 19 4 Test de Kolmogorov-Smirnov pour un échantillon 23

III Mise en évidence de liaisons : tests d'indépendance

1 Cas de deux variables discrètes 25

a. à deux valeurs 25

b. à un nombre quelconque de valeurs 27 2 Cas d'une variable continue et d'une variable à deux valeurs 29 Test de comparaison de deux échantillons 30

Tests non paramétriques 32

Test de la médiane 33

Test de Wilcoxon 35

Test de Kolmogorov-Smirnov pour 2 échantillons 36

(3)

2

C. Huber

3 Cas de deux variables continues 38

a. Couple normal : test du coefficient de corrélation 38 b. Cas général : tests non paramétriques 39

coefficient de corrélation des rangs de Spearman 39 coefficient de corrélation de Kendall 41 c. Intervention d'un troisième facteur 43 coefficient de corrélation partielle 43

IV Tests non paramétriques pour comparer k échantillons

1 k échantillons indépendants 45

Extension du test de la médiane 46

Test de Kruskal-Wallis 49

2 k échantillons liés 52

Test de Cochran 52

Test de Friedman 54

V Exercices 57

Tables

Normale T1 Student T2

Chi deux T3

T4 Kolmogorov-Smirnov pour un échantillon T5

Wilcoxon, Mann-Whitney T6

T7 T8 T9

T10

Spearman T11

Kolmogorov-Smirnov pour deux échantillons T12

T13

Kendall T14

Fisher-Snedecor T15

T16

T17

T18

Kruskal-Wallis T19

T20

Friedman T21

T22

(4)

Probabilités et notions fondamentales 3

I Introduction :

Quelques notions de probabilités. Tests et estimateurs simples.

1 - Introduction

Nous introduisons dans ce chapitre les bases de probabilités nécessaires à la compréhension des méthodes d'analyse statistique ainsi que les notions de base pour l'estimation de paramètres et les tests d'hypothèses.

Le chapitre II, intitulé "Tests d'ajustement", traite le problème qui consiste à vérifier si une variable aléatoire obéit effectivement à une loi de probabilité donnée à l'avance. C'est une généralisation du problème de comparaison d'une proportion observée à une proportion théorique, où la question est de savoir si une variable de Bernoulli obéit ou non à une loi théorique donnée.

Le chapitre III concerne les tests d'homogénéité et d'indépendance, qui servent à mettre en évidence des liaisons, par exemple entre un facteur de risque et une maladie. Cet exemple conduit à la comparaison de deux proportions observées, qui peut être considéré:

- Soit comme un test d'homogénéité de deux échantillons d'une variable en {0,1}, (malades et non-malades) : on se demande si le facteur de risque est présent dans la même proportion dans les deux échantillons.

- Soit comme un test d'indépendance entre deux variables prenant les valeurs 0 ou 1.

Les tests de comparaison de deux échantillons sont de trois types:

- approchés: ils utilisent l'approximation normale, ce qui est possible lorsque la taille de l'échantillon est assez grande,

- paramétriques: ils nécessitent de faire une hypothèse précise sur la loi des observations.

- non-paramétriques: ces derniers ont l'avantage d'être valables même lorsque les échantillons sont très petits et de ne pas nécessiter d'hypothèse sur la loi les données, (contrairement par exemple au test de Student qui, lui, exige que les variables suivent une loi normale, ce qui n'est pas toujours le cas.).

Le chapitre IV donne des tests non paramétriques pour comparer plus de deux échantillons.

2 - Calcul des probabilités et variables aléatoires réelles

Voici, après l'exemple ci-dessous, quelques unes des propriétés les plus importantes d'une probabilité définie sur un espace formé de E, ensemble fondamental des résultats possibles de l'épreuve aléatoire et d'une famille de parties de E, appelées événements et formant une tribu

a .

Ces événements seront notés A, B, C, D,... .

C. Huber

(5)

Probabilités et notions fondamentales 4

Exemple

Si on examine des patients en notant la présence ou l'absence de trois symptômes tels que maux de tête (S1), insomnie (S2) et vertiges (S3), lorsqu'ils sont atteints d'une maladie M, l'ensemble E des résultats possibles de l'examen a 2x2x2 = 8 éléments qui sont les événements élémentaires :

(0,0,0) lorsque aucun des trois symptômes n'est présent, (1,0,0) lorsque seul le premier est présent, etc..

(1,1,1) lorsque les trois symptômes sont présents.

a) Probabilité que A ou B se produisent : (additivité de la probabilité)

Si A et B sont deux événements d'intersection vide , c'est à dire qu'ils ne peuvent pas se produire ne même temps, alors la probabilité que l'un ou l'autre se produise est égale à la somme de leurs probabilités respectives :

P(AUB) = P(A)+P(B) .

b) Probabilité qu'un événement ne se produise pas : (complémentaire d'un événement) Si A ne se produit pas, c'est que c'est son complémentaire Ac dans E qui se produit :

P(Ac) = 1 - P(A)

c) Probabilité que A se produise sachant que b s'est produit : (probabilité conditionnelle) La probabilité de A conditionnellement à b est notée comme P(A|B) ou P(A|B) et définie comme

P(A|B) = P(A∩B) / P(B) Exemple :

Quelle est la probabilité de tirer un roi de cœur d'un jeu de 52 cartes ? Que devient cette probabilité si on sait que la carte tirée est rouge ? si on sait qu'elle est noire ? si on sait que c'est une figure ?

d) Probabilité que A et B se produisent ensemble :

Si A et B se produisent ensemble, c'est que l'intersection de A et B, notée A∩B, se produit. Par définition même de la probabilité de A conditionnellement à B, notée P(A|B), on a

P(A∩B) = P(A|B)P(B) = P(B|A)P(A) Ces deux égalités sont toujours valables, sans condition.

e) Indépendance de deux événements :

Si A et B sont indépendants , P(A∩B) = P(A) P(B),

P(A|B) = P(A) ,

P(B|A) = P(B) .

Ces trois égalités sont équivalentes. Chacune d'elles peut être prise pour définition de l'indépendance de A et B.

Espérance et variance d'une variable aléatoire réelle :

Si X est une variable aléatoire réelle (v.a.r.) , son espérance, ou moyenne, EX et sa variance Var(X), sont ainsi définies :

C. Huber

(6)

Probabilités et notions fondamentales 5

1)Si X est discrète, telle que P(X = xi) = pi , i = 1, 2, ..,k , son espérance EX et sa variance Var(X) sont respectivement :

EX = Σ pi xi ,

Var(X) = E [ (X - EX)2] = Σ pi (xi -EX)2 . Les sommations portent sur tous les indices i = 1,..,k.

L'écart-type σ(X) est la racine positive de la variance σ(X) = √ Var(X) . 2) De même, si X est continue, de densité de probabilité f(x) au point x,

EX = ∫ x f(x) dx , Var(X) = ∫ (x - EX)2 f(x) dx et σ(X) = √ Var(X) . Propriétés de l'espérance et de la variance :

- L'espérance, ou moyenne, d'une somme de variables aléatoires est toujours égale à la somme des espérances : E(X1+ X2 + ... + Xn) = E X1 + E X2 + ...+ E Xn .

- La variance d'une somme, par contre, n'est en général pas égale à la somme des variances:

Var(X+Y) = Var(X) + Var(Y) + 2 cov(X,Y), où cov(X,Y) vaut , par définition :

cov(X,Y) = E(XY) - EX EY .

Si X et Y sont indépendantes, la variance de leur somme est égale à la somme de leurs variances car cov(X,Y) = 0 : Var(X+Y) = Var(X) + Var(Y).

Coefficient de corrélation

La covariance ne dépend pas de l'origine choisie pour mesurer X et Y. Cependant, elle dépend des unités choisies pour ce faire: si X est mesurée en mètres, et si l'on change cette unité contre le centimètre, la covariance sera, comme X, multipliée par 100. Pour éliminer cette dépendance, on définit le coefficient de corrélation ρ de X et de Y:

ρ = cov(X,Y) / σX σY

3 - Quelques lois de probabilité

A Lois continues a) Lois normales N (µ, σ2)

Si µ est un nombre réel et σ un nombre positif, X suit la loi normale N(µ,σ2) si sa densité de probabilité au point x vaut

f(x) = 1

2π σexp (- (x -µ)2 2σ2

) , x IR .

Alors, EX = µ, Var(X) = σ2 , et la variable Ζ = (X- µ) / σ suit la loi normale réduite N(0,1) de densité au point z :

C. Huber

(7)

Probabilités et notions fondamentales 6

ϕ(z) =

1 e-

z2

2 , z IR .

On note Φ la fonction de répartition correspondante Φ (z)= P(Z≤z)=

zϕ(t)dt

Elle joue un très grand rôle car il suffit de connaître Φ pour pouvoir calculer toute probabilité relative à une variable normale quelconque N (µ, σ2). En effet , si X suit la loi normale N(µ,σ2)

P(X ≤ x) = P(µ + σZ ≤ x) = P(Z ≤(x-µ)/σ ) = Φ [(x−µ) / σ]

Les valeurs de Φ sont données par une table.

Rappelons de plus que si X et Y sont deux variables normales indépendantes , leur somme est encore normale, de moyenne la somme des moyennes et variance la somme des variances:

X et Y indépendantes

L (X) = N(µ, σ2) L (X+Y) = N(µ, + µ', σ2 + σ'2 )

L (Y) = N(µ', σ'2)

Ce résultat se généralise à la somme de n'importe quel nombre de variables normales indépendantes.

Couple normal

Un couple (X,Y) de variables aléatoires suit une loi normale, ou, en abrégé, est normal, si , pour tous réels fixés a et b, la variable aX + bY est une variable aléatoire réelle de loi normale. Dans ce cas, une condition suffisante pour que X et Y soient indépendantes est que leur coefficient de corrélation ρ(X,Y) soit nul.

b) Lois exponentielles E (λ)

C. Huber

(8)

Probabilités et notions fondamentales 7

La variable aléatoire positive X suit la loi exponentielle de paramètre λ positif, notée E (λ), si elle admet la loi de densité égale en chaque point x ≥ 0 à :

f(x) = λ e- λx si x ≥ 0 , ( λ > 0 ) . = 0 sinon

La fonction de répartition F correspondante au point x s'obtient facilement par intégration de f entre 0 et x et vaut

F(x) = 1 - e- λx , si x ≥ 0 ; = 0 , si x < 0 .

L'espérance et la variance de X valent respectivement EX = 1 / λ et Var X = 1 / λ2

En particulier, lorsque λ vaut 1, f(x) = e- x , F(x) = 1 - e- x , EX = 1 et Var(X) =1. On peut toujours se ramener à ce cas par un changement d'échelle, en prenant comme nouvelle unité u' = u / λ, ce qui change X en X' = λ X.

c) Lois gamma Γ(a,λ)

X suit la loi Γ (a , λ ), a > 0 et λ > 0 , si sa densité de probabilité au point x est nulle pour x < 0 et vaut pour les x positifs :

x e x 0 )

a ) ( x (

f a_1 x

a ,

a

Γ

= λ λ

λ

où Γ (a) est une généralisation aux valeurs réelles de la fonction factorielle, qui, à l'entier (n+1) fait correspondre le produit n! des n premiers entiers : Γ (n+1) = n! = n(n-1) (n-2) ...

3. 2.1 . Γ (a) s'écrit

Γ(a) = e-t ta-1 0

dt

On peut vérifier, en le prouvant par intégration par parties, que Γ (z+1) = z Γ (z) pour tout z positif, ce qui donne de proche en proche, si l'on part de z = n, et en tenant compte de ce que Γ (1) = 1 , Γ (n+1) = n Γ (n) = n (n-1) Γ (n-1) = n!. De plus, Γ(1/2) = ⎟π .

Propriété (Somme de deux variables indépendantes de lois gamma )

Si X et Y sont indépendantes de lois gamma, de même paramètre λ , L (X) = Γ(a , λ) et L (Y) = Γ (b, λ), la loi de la somme est encore une loi gamma :

L (X + Y) = Γ (a + b, λ) .

La démonstration se fait en calculant la transformée de Laplace ϕ de la loi de X, supposée égale à Γ (a, λ) :

ϕX(t) = E (e-tX) (par définition de la transformée de Laplace)

C. Huber

(9)

Probabilités et notions fondamentales 8

= λa Γ(a) 0

xa-1 e−(λ+t)xdx .

= λa Γ(a) 0

ya-1 e−ydy (λ+t)- 1 (λ+t)a - 1

.

= λa (λ+t)a

Alors ϕ X+Y (t) = E ( e-t(X + Y)) = E ( e-tX) E ( e-tY) puisque X et Y sont indépendantes, et par conséquent ϕ X + Y (t) = (λ /( λ+t)) a+b , qui est la transformée de Laplace de la loi Γ(a+b, λ) .

d) Lois du chi deux ( χ2 ) à n degrés de liberté

C'est, par définition la loi Γ(n/2, 1/2) : χ2n = Γ(n/2, 1/2) . Donc sa densité de probabilité est égale à

n n/2 xn/2 1 e x/2 )

2 / n ( 2 ) 1 x (

f

= Γ si x ≥ 0

Sa transformée de Laplace est donc égale à [(1/2) / (1/2 +t)]n/2 , soit ϕ (t) = (2t + 1) - n/2.

Théorème

Soit Z1, Z2, ..., Zn , n variables indépendantes de loi normale N(0,1). Alors la variable χn2 = Ζ12 + Ζ22 + .... + Zn2

suit la loi du χ2 à n degrés de liberté (d.d.l.) , notée χ2n .

démonstration:

D'après ce qui précède, il suffit de montrer que L (X2) = Γ(1/2 , 1/2) si X est normale N(0,1), c'est à dire que sa transformée de Laplace est égale à (2t + 1) -1/2 :

ϕX

12 (t) = E ( e–t (X12) ) = (1/ 2π) e–x2(t+1/2)= (2t + 1)–1/2.

Moments

C. Huber

(10)

Probabilités et notions fondamentales 9

On voit sans calcul que E (χ12 ) = 1, puisque cette moyenne est égale à celle de Z12 , c'est à dire à la variance de Z1 , qui est de moyenne nulle, et de variance 1. De même,

E ( χn2 ) = n .

Pour calculer tous les moments, E( χn2k) , il suffit de dériver la transformée de Laplace ϕ χ12 (t) par rapport à t et d'en prendre la valeur au point 0. On remarquera lors de la démonstration ci-dessous, que c'est une méthode générale. Notant simplement ϕ cette fonction, on voit que ϕ ' (t) = (2t+1)-3/2 = E( χn2 ) et que, de manière générale, la dérivée d'ordre k vaut

ϕ (k)(t) = 1.3.5..(2k-1) (2t+1) - (k + 1/2) = x2k e-tx f(x2) d( x2) La valeur au point 0 de cette dérivée donne donc le moment d'ordre k : ϕ (k)(0) = 1.3.5..(2k-1) E( χ12k)

Par définition de la variance, on a Var(χ12) = E ((χ12)2) - (E (χ12))2 = 3 − 1 = 2. Comme l'indépendance de Z1 , Z2 ,...., Zn entraîne l'indépendance de leurs carrés et que tous les Zi2 suivent la même loi du χ12 , on a immédiatement

Var (χn2 ) = 2 n . e) Lois Béta

Définition

On dit que la v. a. β suit la loi béta de paramètres a et b ( a > 0 et b > 0 ) si

β = =

0x

1 b 1

a

x y (1 y) dy

) b , a ( B ) 1 b , a ( I ) x (

P x ∈[0 1]

Comme on le voit, β est une variable continue prenant ses valeurs dans l'intervalle [0 ; 1] et sa densité au point x est

xa 1 (1 x)b 1

) b , a ( B ) 1 b , a

; x (

f = x ∈[0 1]

f (x;a,b) = 1

B(a,b)xa-1

(1-x)b-1

0 Š x Š 1

B (a,b) = Γ(a+b)

Γ(a)Γ(b) (= (a+b-1)!

(a-1)! (b−1)! si a et b sont entiers).

On peut prouver que si β suit la loi de f. r. Ix (a,b) alors

C. Huber

(11)

Probabilités et notions fondamentales 10

Eβ = a

a+b et Varβ = ab

(a+b)2

(a+b+1)

Si U et V sont deux variables aléatoires indépendantes, de loi Γ(a,λ) et Γ(b,λ), le rapport U / (U+V) suit la loi béta β (a,a+b).

f) Loi de Fisher-Snedecor à n1 et n2 degrés de liberté F ( n1 , n2 )

Si U est une variable aléatoire qui suit la loi béta ( n1/+2, n2/2), la variable aléatoire ( n2/ n1) U suit la loi de Fisher-Snédécor à n1 et n2 degrés de liberté, notée F(n1,n2).

En particulier, si

L (Y1) = χ2(n1)

L (Y2) = χ2(n2) L ( n2Y1 / n1Y2 ) = F (n1 , n2 ) Y1 et Y2 indépendantes

g) Loi de Student à n degrés de liberté T(n) Par définition, si L (X) = N(0,1)

L (Y) = χ2(n ) L (X / Yn ) = T(n)

X et Y indépendantes

B Lois discrètes

a) Loi de Bernoulli b(p) , p ∈ [ 0 1]

C'est la loi d'une variable aléatoire X qui ne peut prendre que deux valeurs, 1 avec la probabilité p et 0 avec la probabilité 1-p notée q :

P(X=1) = p ; P(X=0) = 1- p = q ; EX = p ; Var(X) = pq.

b) Loi binomiale B (n, p) , n ∈ΙΝ , 0 ≤ p ≤ 1

C'est la loi de la somme Sn de n variables aléatoires X1,X2,..,Xn indépendantes et de même loi de Bernoulli b(p), de paramètre p (0≤p≤1)

1 avec la probabilité p Xi =

0 avec la probabilité q = 1 - p Si 1 correspond au "succès" et 0 à l'échec la statistique Sn = X1 + X2 + .. + Xn

C. Huber

(12)

Probabilités et notions fondamentales 11

qui représente le nombre total de succès au cours des n épreuves ne prend que les valeurs entières j de 0 à n. La loi de Sn est donnée par

n !

P (Sn = j ) = pj = --- pj qn-j , j = 0,1,2,....n . j! (n- j) !

ESn = np et Var (Sn) = npq

L'espérance et la variance sont obtenues comme sommes des espérances et variances des Bernoulli. Le nombre des combinaisons de n objets pris j par j , qui vaut n! / j! (n-j)! , est généralement noté

Cnj ou nj

c) Loi multinomiale M (n, p1, p2 ,..., pr) , n ∈ΙΝ , pi ≥ 0 , Σ pi =1

Si la variable de base X a r modalités au lieu de 2, qu'elle peut prendre avec les probabilités respectives p1, p2 ,..., pr , lorsqu'on répète n fois l'épreuve de manière indépendante, on obtient r effectifs N1, N2 ,..., Nr , où Ni est le nombre de fois que la modalité i a été observée. Alors, pour chaque i, la loi de Ni est la loi binomiale de paramètres n et pi

L (Ni) = B(n,pi) , i = 1, 2, ..., r ;

E(Ni) = npi et Var(Ni) = npi qi .

Mais il est clair que deux effectifs Ni et Nj qui correspondent à deux valeurs différentes de X , i et j , ne sont pas des variables indépendantes. En effet, la somme de tous ces effectifs est fixée et vaut n, le nombre total des observations.

La loi de N = (N1, ..., Nr) ne peut donc pas être décrite à partir des seules lois binomiales B(n,pi) de chacun des Ni. Elle est appelée la loi multinomiale de paramètres (n, p1, p2, ..., pr) et notée M (n; p1, p2, ..., pr) .

La probabilité de l'événement { N1 = n1, N2 = n2 , ..., Nr = nr} est égale, pourvu que la somme des ni soit égale à n, à

P (N1= n1, N2= n2, ..., Nr= nr) =

n!

n1! n2! ... nr! p1n1 p2n2

... prnr

Remarque

Les variables (Ni -npi) / √ npiqi sont centrées réduites, et, lorsque n est grand (npi et nqi au moins égaux à 5), à peu près normales N(0,1). C'est ce qui est utilisé pour les tests du chi deux.

d) Loi de Poisson ∏ (λ) , λ > 0

C. Huber

(13)

Probabilités et notions fondamentales 12

Définition

Une v.a. X suit la loi de Poisson de paramètre λ > 0, notée π (λ), si elle peut prendre toutes les valeurs entières, 0 compris, la probabilité pk pour qu'elle prenne la valeur k étant définie par

λk

pk = P (X = k) = e - λ __ k = 0,1,2,...

k! λ paramètre > 0 Alors EY = Var(Y) = λ

On rappelle que 0! = 1 par définition.

Propriété (Somme de variables de Poisson indépendantes)

La somme de deux variables de Poisson indépendantes est encore une variable de Poisson de paramètre la somme des paramètres :

X et Y indépendantes

L (X) = π (λ) L (X+Y) = π (λ+µ) L (Y) = π (µ)

Il en résulte que la somme d'un nombre quelconque de variables de Poisson indépendantes est encore une variable de Poisson, de paramètre la somme des paramètres.

4 Approximations

a) Approximation normale de la loi binomiale

Une variable binomiale Sn, de loi B(n,p) a pour espérance np et pour variance npq.

Lorsque n est grand, d'après le théorème de limite centrale, la loi de B(n,p) est très proche de la loi normale de même espérance (np) et même variance (npq). A partir de quelle valeur n peut il être considéré comme grand ? Cela dépend de p et q. Plus précisément, on pourra remplacer B(n,p) par N(np, npq) dès que n sera assez grand pour que np et nq soient tous les deux supérieurs à 5 :

B(n, p) ≅ N(np,npq) dès que np ≥ 5 et nq ≥ 5 ce qui s'écrit aussi

Sn ≅ np + npq Z

où Z est normale réduite N(0,1).

b) Approximation normale d'une somme de variables indépendantes

On a un résultat analogue lorsqu'on additionne, non pas des variables de Bernoulli mais des variables indépendantes de même loi et d'espérance µ et variance σ2 :

Sn = X1 + X2 + .. + Xn

C. Huber

(14)

Probabilités et notions fondamentales 13

Alors E( Sn ) = n µ , Var ( Sn ) = n σ2 , et la loi de Sn , qui n'est pas connue puisqu'elle dépend de la loi commune des Xi , qui n'a pas été précisée, est, lorsque n est grand, proche de la loi normale de même moyenne et de même variance qu'elle :

L (Sn ) ≅ N( n µ , n σ2 )

Nous considérerons que n est assez grand pour que l'approximation soit valable lorsque n égale ou dépasse 30, ce qui est vrai pour les lois continues usuelles en biologie. Cela peut s'écrire aussi

Si Sn = X1 + X2 + .. + Xn , indépendantes,

de même loi continue,

E(Xi) = µ , Var(Xi) = σ2,

et n ≥ 30 ,

alors L ( (Sn - n µ) / nσ2) ≅ Ν(0,1) ce qui s'écrit aussi

Sn ≅ n µ + nσ2 Z L (Z) = N(0,1).

c) Approximation de Poisson de la binomiale

Pour la variable binomiale, lorsque np et nq ne dépassent pas 5 tous les deux, mais que n est grand - ce qui a pour origine que la Bernoulli sous-jacente décrit un évènement rare, par exemple p petit - on peut approcher la loi B(n,p) par la loi de Poisson de paramètre égal à np.

Plus précisément :

on a l'approximation de Poisson suivante pour la loi binômiale : pourvu que p ≤ 0,1 et 1 ≤ np < 10

B(n,p) ≅ Π (np)

d) Approximation normale du χn2

Pour calculer des probabilités relatives à des variables du chi deux, on utilisera les tables correspondantes ou l' approximation normale si n est assez grand. En effet, il est clair que la somme de deux variables du chi 2 indépendantes, à m et k degrés de liberté, est une variable du chi 2 à (m+k) degrés de liberté, et que, inversement, une variable du chi 2 à n degrés de liberté peut être considérée comme la somme de n variables indépendantes ayant la loi du chi 2 à 1 d.d.l. . Donc, d'après le théorème de la limite centrale, si n est assez grand

P( χn2 ≤ x ) ≅ P ( n + 2n Ζ ≤ x ) = Φ ( (x - n) / 2n) .

C. Huber

(15)

Probabilités et notions fondamentales 14

5 - Principe des tests

Le problème qui se pose initialement est celui de savoir si un phénomène vérifie ou non une certaine conjecture, qu'on appelle une hypothèse. Par exemple, il s'agit de savoir si une nouvelle technique constitue ou non un progrès par rapport à la technique classique.

Pour le savoir, on se fonde sur l'observation d'une variable aléatoire liée au phénomène.

Dans notre exemple, on observera l'effet de cette nouvelle technique sur n produits : Xi désignera le résultat sur le ième produit. X peut par exemple valoir 1 en cas de réussite, 0 en cas d'échec, et c'est alors une variable de Bernoulli b(p), où p est la probabilité de succès - inconnue - de cette nouvelle technique. Mais Xi peut aussi bien être la durée de vie du ième produit, et c'est alors une variable continue.

A partir des observations, on construit une valeur numérique qui est la réalisation d'une variable aléatoire, fonction des observations, qui est appelée une statistique. Notons la Y = ϕ(X1, ..., Xn) . Et on choisit ϕ de telle sorte que, si c'est possible, la loi de Y soit connue lorsque l'hypothèse qui nous intéresse est réalisée. Appelons Ho cette hypothèse. Alors, si la valeur observée y, réalisation de Y, se trouve dans une zone de trop faible probabilité ( en général, si y est trop grand ou trop petit), on rejette Ho comme ayant conduit à une observation trop peu probable, voire invraisemblable.

Si nous reprenons l'exemple choisi, et si nous supposons que la technique classique a un taux de succès de 50%, sous l'hypothèse Ho qu'il n'y a pas d'amélioration, c'est à dire que la nouvelle technique a elle aussi un taux de succès p =1/2, on connait la loi du taux de succès observé

Po = ϕ(X1, ..., Xn) = ( X1+ ...+Xn) / n

C'est celle d'une binomiale B(n,1/2) multipliée par 1/n, et n est connu puisque c'est le nombre total des observations.

En fait, on aimerait rejeter cette hypothèse Ho au profit de l'hypothèse H1 selon laquelle le taux de succès p de la nouvelle technique est supérieur à l'ancien : p > 1/2. On est donc en présence des deux hypothèses

Ho : p = 0,5

H1 : p > 0,5

Si la proportion observée po est trop éloignée de 0,5 , et plutôt trop grande, on rejettera Ho au profit de H1.

C'est le type de problème intitulé "Comparaison d'une proportion observée, ici po , à une proportion théorique, ici 0,5. En général, le nombre n des observations est assez grand pour qu'on puisse se servir de l'approximation normale. D'ailleurs, dans tous les cas où la variable de base, qui est ici Bernoulli, est quelconque, on n'a aucun moyen de connaître la loi de Y = ϕ(X1, ..., Xn) sous Ho , sauf à employer l'une des approximations qui figurent au paragraphe précédent. D'où l'usage extensif de la loi normale en statistique paramétrique classique.

On voit dans cet exemple que la zone de faible probabilité choisie comme zone de rejet de l'hypothèse nulle Ho a été choisie à droite : ce choix est destiné à rendre aussi grande que possible la puissance du test , c'est à dire la probabilité d'accepter H1 lorsqu'elle est vraie.

C. Huber

(16)

Probabilités et notions fondamentales 15

Lorsqu'on teste deux hypothèses simples, on a un moyen de rendre maximum cette puissance pour un niveau donné a : c'est de rejeter Ho lorsque le rapport des probabilités des observations sous Ho et sous H1 est plus petit qu'une valeur donnée . Cela est une conséquence du

lemme de Neyman et Pearson:

Le test de Ho (P = P0) contre H1 (P = P1) qui a pour zone de rejet deHo :

{ x : [Po(X=x) / P1(X=x) ≤ h} est le plus puissant parmi les tests qui ont le même niveau que lui.

Il suffira donc de choisir la valeur du nombre h de telle sorte que Po{ x : [Po(X=x) / P1(X=x) ≤ h} = α

pour obtenir le test de niveau α le plus puissant.

On pourra vérifier que tous les tests (d'hypothèses simples) considérés jusqu'ici, sans souci apparent d'optimisation de la puissance, sont de ce type.

6 Principe de l'estimation

L'idée originelle est très simple : pour estimer le taux de succès inconnu de la nouvelle technique, on le remplace par le taux observé. L'estimateur de p s'écrit alors :

p =

X1+X2+...+Xn

n = poproportion observée Mais deux points ont besoin d'être précisés dès qu'on veut généraliser :

1) Quelle est la précision d'une telle estimation ? on tombe alors sur les intervalles de confiance, c'est à dire qu'au lieu de donner pour évaluer p une seule valeur comme ci-dessus, sans aucun élément sur la précision probabiliste avec laquelle il représente p, on donne un intervalle qui a une forte probabilité ( en général 95 %) de contenir p.

Pour pouvoir obtenir un tel intervalle, il faut connaitre la loi de l'estimateur ou, à la rigueur, une approximation de celle-ci. Les estimateurs qui nous ont servi jusqu'à présent étant essentiellement des moyennes empiriques, relevaient de l'approximation 2 b). Souvent l'estimateur est sans biais et de loi (approximativement ) normale autour de sa moyenne :

L (p) N( p ,σ2)

Alors

[ p -2σ ; p +2σ ]

est un intervalle de confiance dont la probabilité de contenir p, c'est à dire le coefficient de confiance, est de 95 %. Le coefficient 2 correspond au quantile 0,975 de la loi normale, qui vaut en fait , non pas 2 mais 1,96. En général l'écart-type σ qui figure dans cet intervalle n'est pas connu et doit être estimé sur les observations. Dans l'exemple choisi, la variance de l'estimateur est Var(Po) = p0q0 / n, ce qui donne pour intervalle de confiance à 95 % :

[ po - 2 pqn ; po + 2 pqn ] .

C. Huber

(17)

Probabilités et notions fondamentales 16

2) Que faire s'il n'y pas (ou s'il y a plusieurs) équivalents empiriques du paramètre à estimer ? Alors on peut écrire la vraisemblance V des observations, c'est à dire la probabilité d'observer ce qui a été observé en fonction du (ou des) paramètres à estimer:

Pθ (X1 = x1, X2 = x2, ..., Xn = xn) = V(θ) .

La vraisemblance est considérée comme une fonction du paramètre inconnu à estimer, θ, et non comme une fonction des observations x1, x2, ..., xn . On choisit comme estimateur de θ la valeur

θ qui maximise V(θ) : V(θ) ≥V(θ) pour toutθ

Une théorie générale montre que ces estimateurs sont très bons, sous des conditions très souvent réalisées, lorsque le nombre des observations est assez grand.

Exemple 1 : durée de vie exponentielle

On suppose que la durée de vie d'un appareil de dosage suit une loi exponentielle de paramètre θ inconnu. On a observé la durée de vie de 5 tels appareils et obtenu les valeurs suivantes exprimées en jours : 77, 31, 27, 58, 103. Quel estimateur peut on proposer pour θ ? Exemple 2 : palmier à huile

Le palmier à huile est sujet à une maladie appelée le blast. Cette variété de palmier apparait sous forme de palmiers jumeaux. Dans un champ comprenant n = 500 tels couples de palmiers, on a décompté 242 couples sains, 185 couples composés d'un palmier malade et d'un palmier sain et 73 couples de palmiers malades tous les deux. A combien estimer la probabilité θ pour un palmier d'être malade ? On doit, pour être en mesure de faire cette estimation, faire une hypothèse sur la transmission de la maladie d'un palmier à son jumeau.

Exemple 3 : durée de vie uniforme

La durée de vie d'un certain type de cellule est une variable aléatoire qui a une loi uniforme sur un intervalle de temps [ 0 ; θ ] . θ est inconnu et on veut l'estimer après avoir observé les durées de vie, exprimées en jours, de 12 cellules tirées au hasard : 6, 7, 6, 8, 2, 4, 10, 1, 5, 5, 9, 10. Quel estimateur proposer pour θ ?

C. Huber

(18)

Tests d'ajustement

17

II TESTS D'AJUSTEMENT

1 - Introduction

Très souvent, lors de la résolution d'un problème, on rencontre des phrases du type :

"Si la loi de la variable X est normale ...", ou "Supposons que la loi de X soit de Bernoulli de paramètre p = 1/2, ..." ou en employant un langage plus courant "Supposons que deux structures différentes soient également réparties chez les bactéries". Comment vérifier l'exactitude de ces hypothèses ?

Les techniques appropriées sont appelées des tests d'ajustement ou tests d'adéquation (fit tests en anglais): étant donnée une loi de probabilité théorique, il s'agit de savoir, à partir d'un n-échantillon, c'est à dire de n observations indépendantes, d'une variable aléatoire X, si cette variable obéit bien à la loi spécifiée.

Le test le plus usuel est celui du chi 2 d'ajustement pour une loi multinomiale décrit au début du paragraphe suivant.

2 - Test d'ajustement du chi2 pour une loi spécifiée

a. Cas d'une variable discrète :

X a un nombre fini r de modalités, notées 1, 2, ..., r et il s'agit de tester l'hypothèse Ho : P(X = 1) = p1 , P(X = 2) = p2 , ..., P(X = r) = pr ,

où p1 , p2, ..., pr sont des probabilités données à l'avance. Alors on considère la statistique

E2 =

r i = 1

(Ni- n pi)2 n pi

qui mesure l'écart relatif entre les effectifs observés Ni et les effectifs moyens npi appelés aussi effectifs "attendus" (de l'anglais "expected") si Ho est vraie.

On peut démontrer que, si Ho est vraie, et pourvu que tous les npi soient assez grands (supérieurs à 5), E2 suit (approximativement) une loi du chi 2 à (r - 1) degrés de liberté (notés ddl).

C. Huber

(19)

Tests d'ajustement

18

Exemple 4 : dosage

Prenons un dosage biologique, qui peut être normal, faible ou fort selon qu'il se situe entre deux bornes, est inférieur à la plus petite, ou supérieur à la plus grande, a r = 3 modalités. On veut tester le fait que 90 % des gens ont un dosage normal, alors que 5 % l'ont faible et 5 % l'ont fort. Pour cela, on tire au hasard 100 sujets et on constate que, sur les 100 dosages, 76 sont normaux, 10 faibles et 14 forts. Quelle sera la conclusion ? b. Test d'ajustement du chi 2 pour une variable continue

Si l'on se pose la question de savoir si une variable X suit ou non la loi normale N (0, 1), on peut se ramener au problème précédent en discrétisant la variable :

c'est-à-dire que l'on fait une partition finie de l'ensemble R de toutes les valeurs possibles de X formée de r intervalles successifs sans point commun :

] - ∞, a1], ]a1 , a2] ,..., ] ar-1 +∞ [

Si l'on a observé un n-échantillon de valeurs de X, x1,..., xn, on résume ces observations en

(N1, ..., Nr)

où N1 désigne le nombre des xi qui sont inférieurs à a1, N2 le nombre de ceux qui tombent entre a1 (non compris) et a2 (compris) etc...

Sous l'hypothèse

H0 : la loi de X est la loi N (0,1)

les probabilités pj pour que X tombe dans chacun des r intervalles Ij = ]aj-1 aj]

peuvent être calculées :

pj = 1

aj -1

aj

exp {-z2 2} dz

Et on voit donc comment se ramener au problème du paragraphe précédent pour toute loi continue dont la densité est complètement spécifiée.

Exemple 5 : Taux de cholestérol

On veut savoir si le taux de cholestérol dans une sous population déterminée de patients suit la loi normale de moyenne 200 et variance 36, N (200, 36), qui est la loi du taux de cholestérol dans la population générale, lorsque ce taux est exprimé en cg/l Pour cela, on a extrait au hasard 100 sujets de cette population et obtenu les résultats suivants :

Taux de cholestérol Effectif Taux de cholestérol Effectif ] 90 110] 01 ]190 210] 17

] 110 130] 02 ]210 230] 12

] 130 150] 18 ]230 250] 4

] 150 170] 26 ]250 270] 2

] 170 190] 16 ]270 290] 1

]290 310] 1

C. Huber

(20)

Tests d'ajustement

19

On devra calculer les probabilités attribuées à chacun des intervalles par la loi N (200, 36) :

pj = 1

2π 6 aj-1

aj

exp { - (z - 200)2 72 } dz

avec ao = - ∞ , a1 = 110, a2 =130,..., a11 = + ∞ , ou bien les chercher sur une table donnant la fonction de répartition Φ de la loi N (0 ; 1). En effet pj peut aussi s'écrire

pj = F(aj) - F(aj - 1) = Φ ( (aj - 200) / 6) - Φ ( (aj-1 - 200) / 6)

On devra ensuite regrouper certains intervalles mitoyens pour être dans les conditions de l'approximation souhaitée, c'est-à-dire npj supérieur à 5 pour chacun des pj . Alors la variable d'écart vaut :

E2 =

Σ

r i = 1

(Ni- n pi)2 n pi

et, sous l'hypothèse nulle Ho , le taux de cholestérol suit dans cette sous-population la loi N (200, 36), E2 suit une loi proche de la loi du chi 2 à r -1 degrés de liberté.Si la valeur observée de E2, soit e2, est trop grande, c'est-à-dire par exemple si :

P(χ2r-1 ≥ e2 ) ≤ 0,05

et si l'on s'est fixé le seuil de 5%, on rejettera Ho.

On pourra faire le calcul des pj, du nombre de classes qui restent après regroupement et finalement conclure, au seuil de 5%.

3 - Tests d'ajustement du chi 2 avec estimation de paramètres

Lors des deux cas que nous avons envisagés jusqu'ici, les lois sur lesquelles on voulait réaliser l'ajustement étaient complètement spécifiées.

En fait, le cas le plus fréquent en pratique est celui où la loi sur laquelle on cherche à réaliser l'ajustement n'est pas complètement spécifiée, mais comporte des paramètres qu'il faut d'abord estimer. Par exemple, lorsqu'on se demande si une variable est normale, c'est en général sans avoir d'a priori sur la moyenne et la variance de cette loi. On doit alors estimer µ et σ2 respectivement par m et s2 , pour pouvoir effectuer un ajustement sur la loi N (m ; s2). De même, s'il s'agit d'une loi multinomiale, les paramètres ne sont pas toujours complètement spécifiés, comme l'illustre l'exemple suivant.

C. Huber

(21)

Tests d'ajustement

20

Exemple 2 : suite

Le problème est de déterminer si la maladie du palmier à huile, le blast, se transmet d'un pied à son pied jumeau.

L'hypothèse que l'on veut tester, Ho, est que la maladie ne se transmet pas.

Alors, si θ représente la probabilité pour qu'un pied soit malade, et si X est la variable aléatoire qui désigne le nombre de pieds malades dans un couple (X vaut 0, 1 ou 2), on a :

P (X =2) = θ2 = p1 P (X = 1) = 2 θ (1 − θ) = p2 P (X = 0) = (1 - θ)2 = p3

Si l'on observe n couples de palmiers jumeaux, on testera donc si la loi de (N1, N2, N3) où

N1 est le nombre de couples dont les deux éléments sont malades , N2 le nombre de couples comportant un seul pied malade,

N3 le nombre de couples dont aucun pied n'est malade,

est une loi multinomiale de paramètres (n ; θ2 , 2 θ (1 − θ) , (1 - θ)2 ).

Préalablement à l'ajustement, il faudra estimer θ .

Nombre de pieds malades

dans le couple 2 1 0 Nombre de couples 73 185 242

Avec les notations précédemment introduites :

N1 = 73 , N2 =185 , N3 = 242

p1 = θ2 , p2 = 2 θ (1 − θ) , p3 = (1 - θ)2 . La vraisemblance s'obtient en remplaçant dans :

P (N1 = n1, N2 = n2, N3 = n3)

n1 par 73, n2 par 185, n3 par 242, ce qui donne une fonction de θ seul. Calculons donc Pθ (N1 = n1, N2 = n2, N3 = n3), c'est-à-dire, de manière générale, la loi multinomiale de paramètres (n ; θ2 , 2 θ (1 − θ) , (1 - θ)2 ) :

P( N1= n1, N2= n2, N3= n3) = n!

n1! n2!n3! p1n1 p2n2

p3n3

On voit que ce calcul se généralise au cas où l'on a non plus 3, mais un nombre r quelconque de classes pour le caractère étudié. Ici, cela donne pour la vraisemblance de l'échantillon :

P( N1= 73 , N2= 185 , N3= 242 ) = 500!

73! 185!242! θ2x73

[2θ(1 -θ)]185

(1 − θ)2x242

C. Huber

(22)

Tests d'ajustement

21

L'estimateur du maximum de vraisemblance de θ est la valeur qui rend cette fonction de θ aussi grande que possible. On obtient généralement cette valeur, qui rend la vraisemblance maximum, en cherchant le maximum du logarithme de la vraisemblance puisque la fonction Logarithme est monotone croissante. On note V(θ) la vraisemblance et L(θ) son logarithme. Ici L(θ) vaut :

L(θ) = (146 + 185) log θ + (185 + 484) log (1 - θ) + C

où C désigne une constante (C ne dépend pas de θ, mais elle dépend des effectifs observés). On obtient le maximum de L en dérivant L par rapport à θ :

L'( θ ) = 331 / θ - 669 / (1 - θ) = 0 ce qui donne

θ = 331

1 000 = 0,331

valeur qui correspond effectivement à un maximum puisque L" ( 0,331 ) < 0 .

Qu'il s'agisse d'une variable discrète d'emblée ou d'une variable continue rendue discrète par subdivision de ses valeurs en un nombre fini de classes, soit X une variable prenant r valeurs distinctes, qu'on appellera 1, 2,..., r par commodité, et soit

P (X = 1) = p1 et de manière générale

P (X = i ) = pi

pour i variant de 1 à r. Les valeurs de p1, ... , pr sont des fonctions connues d'un ou plusieurs paramètres θ 1, ... , θ k qui sont inconnus et qu'on remplace par leurs estimateurs du maximum de vraisemblance :

V(θ12,...,θk) = n!

n1! n2!n3! p112,...,θk)n1

p212,..., θk)n2

...pk1, θ2,...,θk)nk

est la vraisemblance de l'échantillon si l'on a observé n1 fois la valeur 1 pour X, n2 fois la valeur 2, etc...

Et les valeurs

θ1, θ2,..., θk

sont celles qui rendent maximum cette fonction. On peut , si V est différentiable obtenir ces valeurs par dérivation. Il en résulte des estimateurs

p1, p2,..., pr Pour tester

H0 : la loi de X a pour paramètre θ 1, ... , θ k

On calcule la variable d'écart E2 entre les effectifs observés ni dans chacune des classes et leurs espérances sous Ho :

C. Huber

(23)

Tests d'ajustement

22

E2 =

r i = 1

(Ni- n pi)2 n pi

Alors, sous Ho, E2 suit une loi proche de celle du chi-2 a r-k-1 degrés de liberté, pourvu que n soit assez grand pour que

n pi ≥5 pour i = 1, 2, ... , r

Le nombre de degrés de liberté est diminué du nombre k de paramètres estimés. Ce résultat est vrai pourvu que les paramètres soient estimés par la méthode du maximum de vraisemblance.

Exemple 2 : palmier à huile (suite)

Revenons à l'exemple du palmier à huile. On a estimé un paramètre θ , et les valeurs correspondantes estimées de p1 , p2 , p3 sont : 0,1096 , 0,4422 et 0,4475

On vérifie que

n pi ≥5 pour i = 1, 2, 3

La variable d'écart :

E2 =

Σ

r i = 1

(Ni- n pi)2

n pi = 12,55

suit approximativement la loi du chi 2 à 1 degré de liberté (r-k-1 = 3-1-1 =1) sous l'hypothèse nulle. Or

P (χ12 ≥ 12,55 ) < 0,001

On rejette donc l'hypothèse nulle, et le test est significatif avec un degré de signification inférieur à 1 o/oo .

Remarque 1

Comme il est, dans certains cas, comme par exemple celui où la loi de X était continue et a été discrétisée, assez compliqué d'estimer les paramètres non spécifiés par la méthode du maximum de vraisemblance sur les classes, qui est le cadre dans lequel est démontrée la convergence vers une loi du chi 2 de la variable d'écart E2, on se contente quelquefois d'utiliser d'autres estimateurs, plus simples, de ces paramètres.

Exemple

Pour ajuster des données à une loi normale d'espérance et de variance non précisées, on remplace souvent cette espérance et cette variance par leurs estimateurs empiriques

x et sn2 n - 1

On pourra évaluer la différence des résultats obtenus en utilisant cette approximation et en se plaçant au contraire dans le cadre strict de la théorie sur les données concernant le taux de cholestérol.

Remarque 2

En ce qui concerne la puissance de ces tests d'ajustement, appelés tests du (Chi-

C. Huber

(24)

Tests d'ajustement

23

deux), l'alternative contient trop de probabilités différentes pour qu'elle soit vraiment étudiée. La loi de E2, sous chacune de ces lois pose un problème différent qu'il faut résoudre en coup par coup.

3 - Test de Kolmogorov-Smirnov :

On remarquera que le test d'ajustement du chi 2 est très bien adapté à des variables à r classes non ordonnées. En effet la statistique sur laquelle se fonde le test, E2, ne tient pas compte d'un ordre éventuel des r classes.

Si l'on veut utiliser cette propriété, on peut utiliser un autre test d'ajustement : le test de Kolmogorov- Smirnov . La statistique sur laquelle est fondé ce test est

D = sup ⏐ Fn- F ⏐ .

Sup ⏐ Fn- F ⏐ signifie : sup t ∈R ⏐ Fn (t) - F (t) ⏐ , c'est-à-dire le maximum de la valeur absolue de la différence entre la fonction de répartition F de la loi sur laquelle on veut faire l'ajustement et la fonction de répartition empirique (ou fonction cumulative observée) :

Fn(t) = 1 n

Σ

n i = 1

1]- t](xi)

c'est-à-dire la fonction de répartition associée à la loi empirique (ou observée) définie par l'échantillon (x1, ... , xn).

Sous l'hypothèse nulle Ho, selon laquelle X a effectivement pour fonction de répartition F, la loi de D dépend uniquement de la taille n de l'échantillon. Cette loi est tabulée (voir la table de D jointe à la fin de ce cours) pour n variant de 1 à 35 (n est appelé N dans la table).

Pour les valeurs de n supérieures à 35, on utilise la convergence de la loi de D ⎟n vers une loi indépendante de n, quand n croit :

P ( supt n ⎮F n (t) - F (t)⎮<α ) → 1 - 2

Σ

k = 1

(- 1)k+1e - 2 k

2α2

pour tout α positif. Il n'est pas nécessaire de retenir ce résultat. Ce qui importe c'est que , en pratique, dès que n est supérieur à 35, on peut utiliser une loi unique et par suite les valeurs correspondant aux seuils de signification de 20 %, 15 %,...,1 % forment une seule ligne de la table, la dernière, à condition bien sûr d'effectuer dans chaque cas la division par ⎟n, où n est le nombre des observations.

Exemple 7 : radiographies

Un appareil de radiographie admet 5 réglages possibles, allant du plus clair au plus foncé en ce qui concerne le tirage. On veut tester l'hypothèse, grâce à 10 médecins observant chacun les 5 tirages différents d'une même radio, concernant chacune un patient différent, selon laquelle la lisibilité de la radiographie est la même pour les cinq tirages On appelle Ho cette hypothèse, qui dit que les préférences des médecins des médecins, en ce qui concerne la lisibilité des radios, devraient être uniformément réparties sur les cinq tirages.

C. Huber

(25)

Tests d'ajustement

24

Rang de la radio choisie (1 est la plus foncée)

1 2 3 4 5 Nombre de sujets choisissant 0 1 0 5 4 ce rang

F : fonction de répartition 1/5 2/5 3/5 4/5 5/5 théorique sous H0

Fn : fonction de répartition 0/10 1/10 1/10 6/10 10/10 empirique

Fn - F 2/10 3/10 5/10 2/10 0

Donc D = 5/10 = 0, 500.

Pour n = 10, la table de la loi de D, sous Ho, nous dit que :

PHo (D ≥ 0, 500) < 0, 01

Le test est donc significatif, on rejette Ho, avec un degré de signification inférieur à 1%.

Remarque :

Le test de Kolmogorov a plusieurs avantages sur le test du chi 2 :

1) Il ne perd pas d'information comme c'est le cas parfois lorsqu'on est obligé de regrouper des classes pour avoir des effectifs suffisants dans chacune d'entre elles.

2) Lorsque le nombre d'observations est petit, le test du χ2 ne peut pas s'appliquer du tout. Si l'on essaie d'appliquer le test du χ2 à l'exemple ci-dessus, on doit combiner plusieurs catégories adjacentes :

Foncé (1,2) Clair (3,4,5) Fréquence de choix 1 9

Alors χ12 = 3,75. La probabilité que χ12 soit supérieur à 3,75 tombe entre 0,05 et 0,10, ce qui ne nous permet pas de rejeter Ho au seuil de 5%.Ce test est moins puissant que le test de Kolmogorov- Smirnov, car on a perdu de l'information.

C. Huber

(26)

Indépendance 25

III Mise en evidence de liaisons : Tests d'indépendance.

La mise en évidence de l'existence d'une liaison entre deux caractères aléatoires a beaucoup d'importance dans toutes les études épidémiologiques, en particulier lorsqu'on a comme objectif la prévention des maladies. Les techniques employées sont différentes suivant que les variables étudiées sont discrètes ou continues; elles sont différentes aussi suivant que le type de loi des variables est connu ou non. Nous distinguerons trois cas fondamentaux qui donnent lieu chacun à diverses méthodes : les variables sont toutes les deux discrètes, une seule est continue et les deux le sont.

Dans chacun de ces trois cas, nous avons vu une méthode particulière lors du chapitre I.

Partant de là, nous allons introduire d'autres méthodes, plus générales.

1 - Les deux caractères sont discrets :

a - Deux caractères à deux classes :

Le cas le plus simple est celui où chacun des deux caractères A et B ne prend que deux valeurs. Prenons un exemple : on se demande si la sensibilité aux intoxications professionnelles dépend des conditions de vie : est elle la même pour la population rurale et pour la population citadine ?

On dispose des observations suivantes :

Intoxication sensibles non sensibles taille d'échantillon Milieu

Citadins 123 153 276 Ruraux 145 150 295

portant sur deux échantillons tirés au hasard d'une part parmi les habitants de la ville et d'autre part parmi les habitants de la campagne.

Nous savons déjà traiter ce problème, par la technique de la "comparaison de deux proportions observées" qui sont ici :

- La proportion observée d'individus sensibles parmi les citadins, soit po = 123/276 = 0,45 - La proportion observée d'individus sensibles parmi les ruraux, soit p'o = 145/295 = 0,49 Si p est la proportion exacte, dans la population des citadins toute entière, de ceux qui sont

sensibles, et p' la même quantité pour les gens de la campagne, on teste l'hypothèse Ho (p = p'), la contre- hypothèse étant H1 (p ≠ p').

Sous l'hypothèse nulle Ho, la variable aléatoire

C. Huber

(27)

Indépendance 26

E = P'o - Po Pt Qt( 1

n1+ 1 n2)

où Po est la proportion de sensibles pour un échantillon de n1citadins P'o est la proportion de sensibles dans un échantillon de n2 ruraux Pt est la proportion de sensibles dans l'échantillon total de taille n1+ n2 Qt = 1 - Pt

a une loi qui est proche de la loi normale de moyenne nulle et de variance 1, notée N(0, 1), et dont la table figure à la fin de ce cours : en effet n1po, n1qo, n2 p'o, n2 q'o sont tous supérieurs à 5.

On notera, dans toute la suite Z une variable de loi N(0,1).

La valeur observée de E, dans notre exemple est : e = p'o - po

pt qt( 1 n1+ 1

n2)

= 0,49 - 0,45

0,47.0,53 ( 1 276 + 1

295)

= 0,04 0,04 = 1

Et la probabilité pour que, sous l'hypothèse Ho, on ait observé une valeur de E , qu'on appelle l'écart réduit des deux proportions, au moins aussi grande que e, en valeur absolue, vaut donc à peu près

P (|Ε| ≥ | e |) ≈ P ( |Ε| ≥ 1) ≈ 0,32

Le degré de signification du test est donc 0,32, et le test n'est donc pas significatif : on conserverait Ho pour tout seuil α inférieur à 0,32. Or on n'estime en général qu'un test est significatif que si son degré de signification - qui vaut ici environ 30 % - est inférieur ou égal à 5 %.

On conclut donc que le mode de vie, citadin ou campagnard, n'a pas d'influence sur la sensibilisation aux intoxications professionnelles.

Pour généraliser ce test au cas où les deux caractères A et B ont plus de deux modalités, on l'exprime sous une autre forme, en remarquant qu'il est équivalent de dire

|Ε| ≥ |e| ou E2 ≥ e2

De même que lors de l'étude des tests d'ajustement, on peut montrer que E2 s'écrit aussi, en notant :

N1 l'effectif de ceux qui sont sensibles parmi les citadins N2 l'effectif de ceux qui ne sont pas sensibles parmi les citadins N3 l'effectif de ceux qui sont sensibles parmi les ruraux

N4 l'effectif de ceux qui ne sont pas sensibles parmi les ruraux Pt la proportion des sensibles sur le total

Qt la proportion des insensibles sur le total Qt = 1 - Pt

C. Huber

(28)

Indépendance 27

E2 = (N1 - n1Pt)2

n1Pt + (N2 - n1Qt)2

n1Qt + (N3 - n2Pt)2

n2Pt + (N4 - n2Qt)2 n2Qt

Sous l'hypothèse nulle Ho d'indépendance des deux caractères, qui se traduit par l'égalité des proportions de sensibles dans les deux populations de citadins et de ruraux, tout se passe comme si l'on avait un seul échantillon de taille n1+n2 et Pt constitue alors un bon estimateur de cette proportion.

Alors E2 peut être interprété comme la somme des carrés des écarts (réduits) de chacun des effectifs à sa moyenne estimée.

On appelle quelquefois les Ni les effectifs observés et les niPt et niQt les effectifs

"calculés" ou "théoriques".

Sous l'hypothèse Ho, pourvu que les dénominateurs niPt et niQt soient tous supérieurs ou égaux à 5, E est approximativement normale N(0, 1), donc E2 est approximativement χ21 .On rappelle (voir au chapitre I) qu'on appelle loi du chi deux à r degrés de liberté (notée χ2r) la loi de la variable

S = Z21+Z22+... +Z2r où les Zi sont indépendantes et toutes de loi N(0, 1)).

Dans la table des lois du chi deux, on lit donc que P(E2 >e2) = P(E2 > 1) ≈ 0, 32.

On constate donc que le test fondé sur E2 est identique à celui fondé sur E , mais la forme E2 permet une généralisation immédiate en cas où

A a r modalités, B a k modalités .

b - Deux caractères à r et k classes :

Prenons à nouveau un exemple : on veut savoir si le temps écoulé depuis la vaccination contre la petite vérole a ou non une influence sur le degré de gravité de la maladie lorsqu'elle apparaît. Les patients sont divisés en trois catégories selon la gravité de leur maladie - légère (L), moyenne (M), ou grave (G) - et en trois autres quant à la durée écoulée depuis la vaccination - moins de 10 ans (A), entre 10 et 25 ans (B), plus de 25 ans (C).

Les résultats d'une observation portant sur n = 1574 malades sont les suivants :

C. Huber

(29)

Indépendance 28

Durée X écoulée depuis

la vaccination A B C Total

Degré de gravité Y de la maladie

G 1 42 230 273

M 6 114 347 467

L 23 301 510 834

Total 30 457 1087 1574

Pour mettre en évidence une liaison entre X et Y, on choisit de tester les hypothèses nulle et alternative :

Ho : X et Y sont indépendantes, H1 : X et Y sont liées .

De manière générale, soient X et Y deux variables discrètes, X à r classes et Y à k classes, notées respectivement i = 1,..., r et j = 1,..., k et nij l'effectif observé, dans le tableau croisé, des individus pour lesquels X vaut i et Y vaut j. On note n..j le nombre total de ceux pour lesquels Y vaut j, et qui figure au bas de la jème colonne, et ni. le nombre total de ceux pour lesquels X vaut i , et qui figure à droite de la ligne i.

Sous l'hypothèse Ho d'indépendance de X et Y : P (X = i, Y = j) = P (X = i) . P (Y = j) soit pij = pi . p.j

Comme des estimateurs de chacune de ces probabilités à partir du tableau des effectifs du tableau des observations, sont

pij = nij

n , pi. = ni.

n ,p.j = n.j n Si Ho est vraie les écarts

pij - pi.. p.j

ne doivent être dus qu'aux fluctuations d'échantillonnage, On peut démontrer que la variable

E2 = i = 1, ..,r ; j = 1, ..,k

(nij- ni.p.j)2 ni.p.j

suit une loi proche de celle du χ2 à (r - 1) (k -1) degrés de liberté, pourvu que les dénominateurs ni. p.j soient tous supérieurs à 5 (si ce n'est pas le cas, on regroupe plusieurs classes).

Revenant à l'exemple considéré, r = k = 3 et la variable E2, qui vaut e = 61,4, suit , sous

C. Huber

Références

Documents relatifs

Veuillez fournir un tableau de statistiques descriptives (moyenne, écart type, erreur standard moyenne, etc.) pour ces nouveaux groupes. Veuillez n’inclure que les

Le chef de projet a créé un rapport d’exception lors du processus « contrôler une séquence » lorsque des incidences et des risques sont remontés au comité de pilotage de

Méthode de Chao par blocs (on ne considère plus une nouvelle unités mais un bloc de H nouvelles unités).. Méthode du réservoir équilibrée

Nous proposons un premier algorithme permettant d’uniformiser à la volée un flux de données (ou d'items) de taille non bornée, sous l’hypothèse que les probabilités

Deux échantillons de réserve de 2000 établissements, mobilisés si taux de réponse &lt; 40%, puis 30 %.. SI les échantillons de réserve sont utilisés, on y échantillonne des

n’avons aucune information de caractère théorique sur la forme concrète de la fonction de répartition théorique inconnue Fq (x), nous sommes bien dans le cadre d’un

blables pour l’application du test de Kolmogorov aux échantillons qui pro - viennent des populations exponentielles avec paramètres inconnus, que l’on estime au

La base de données doit alors rapprocher pour chaque individu les informations obtenues à l'aide de collectes successives de même nature : par exemple les déclarations annuelles