V. Introduction aux tests statistiques Biostatistique

(1)

Biostatistique

V. Introduction aux tests statistiques

Ecole Supérieur de Technologie de Fkih Ben Salah

M. MERZOUKI

Génie Biologique & Industrie Agroalimentaire

2019-2020

(2)

L’hypothèse statistique

Une hypothèse statistique

est une assertion concernant la distribution d’une ou de plusieurs variables aléatoires. Elle peut notamment concerner les

paramètres d’une distribution donnée

ou encore

la loi de probabilité de la population étudiée

. L’examen de la validité d’une hypothèse se fait par un

test d’hypothèse à

partir d’observations recueillies sur un échantillon de la

population étudiée

.

(3)

hypothèse nulle & hypothèse alternative

Dans le cas d’un test d’hypothèse sur la loi de probabilité

suivie par la population étudiée, on appelle

hypothèse nulle

l’hypothèse selon laquelle la population étudiée

suit une loi de probabilité donnée

. L’hypothèse selon laquelle la population

ne suit pas la loi de probabilité donnée

s’appelle

hypothèse alternative

L’hypothèse nulle est généralement notée H

₀

• L’hypothèse alternative H

₁

.

(4)

Dans le cas d’un test d’hypothèse sur les paramètres

d’une distribution, on appelle hypothèse nulle l’hypothèse selon laquelle le paramètre étudié est égal à une valeur donnée. L’hypothèse selon laquelle le paramètre est différent de cette valeur s’appelle hypothèse alternative.

(5)

Les tests statistiques

Objectifs

1 • savoir définir les notions suivantes : test d’hypothèse, différence significative, risques d’erreur de première espèces, degré de signification et puissance.

2 • savoir quelles conclusions on peut tirer des différents résultats possibles d’un test.

(6)

Le principe du test d’hypothèse est ensuite de

confronter les résultats observés à l’hypothèse nulle pour

savoir si ces résultats sont probables sous l’hypothèse

nulle.

(7)

Pour cela on va quantifier

le degré de signification

noté

p

et appelé simplement en anglais la

p-value

. Il s’agit de

la

probabilité d’observer

, sous H0 ,

une différence

au moins aussi grande que celle observée.

(8)

Si p <α , on rejettera H₀ Si p ≥ α on ne rejette pas H₀

α étant un seuil communément fixé à 0.05 (5%)

**p < 0.05 (*) différence significative**

p < 0.01 () différence très significative**

p < 0.001 (*) différence hautement significative**

Ainsi, si p < α on rejette H₀. On en conclut que les 2 moyennes théoriques sont différentes autrement dit que la différence observée est significative

(9)

Principe d’un test d’hypothèse

Exemple1: Comparaison de deux moyennes indépendants

Un essai a été réalisé sur 30 chiens, afin de tester l’efficacité d’un

supplément alimentaire

contre la

formation de tartre

sur les dents de l’animal.

Groupe 1 (Témoin ):

alimentation non supplémentée

Groupe 2

alimentation supplémentée

(10)

La formation de tartre est quantifiée par un index combinant la proportion de dents atteintes et l’épaisseur de la couche de tartre formée.

Les résultats obtenus sont résumés dans la table. A partir de ces résultats, on se demande si l’on peut conclure que le supplément alimentaire diminue la formation de tartre. Un test d’hypothèse vise à répondre à ce type de question.

(11)

Dans un test d’hypothèse, on définit

l’hypothèse nulle

notée H

₀ comme l’hypothèse de différence nulle. Dans notre exemple, ce sera l’hypothèse selon laquelle

le supplément

alimentaire et le placebo ont le même effet

sur l’index de tartre. On définit

l’hypothèse alternative notée H

₁ comme l’hypothèse de différence non nulle.

(12)

G1

0,49 1,05 0,79 1,35 0,55 1,36 1,55 1,66 1 0,61

1 0,82 1,4 0,75 0,59 1,62 1,66 1,2 0,53 1,55

0,66 1,54 0,55 0,59 1,67 1,68 1,26 0,55 0,58 1,78

0,34 0,76 0,45 0,69 0,87 0,94 0,22 1,07 1,38 0,35

0,76 0,43 0,67 0,86 0,92 0,25 1,09 1,34 0,36 0,73

0,44 0,65 0,86 0,92 0,22 1,1 1,31 0,96 0,22 0,92

G2

(13)

m₁= 0,74 σ₁= 0,35 m₂= 1,08

σ₂= 0,44

(14)

Dans ce cas, il s’agit de comparer deux moyennes observées. Lorsque les deux groupes d’échantillons (A et B) à comparer n’ont aucun lien, on utilise le test t de Student indépendant(ou non apparié).

Test t de Student pour échantillons indépendants

Il s’agit donc de calculer l’index de tartre observé sur les animaux des groupes « supplément » et « témoin » et d’évaluer si la différence est significativeau point de vue statistique.

(15)

est donnée par la formule suivante:

•Soit 1 et 2 deux groupes différents à comparer.

•Soit m₁ et m₂ la moyenne du groupe 1 et celui du groupe 2,

respectivement.

•Soit n₁ et n₂ la taille du groupe A et celle du groupe B, respectivement.

La valeur t de Student est donnée par la formule suivante:

σˆ représentant l’estimation de l’écart type commun défini par:

où σ₁ et σ₂sont les écarts type estimés sur chaque échantillon.

(16)

Pour savoir si la différence est significative, il faut tout d’abord lire dans la table t, la valeur critique correspondant au risque alpha = 5% (α=0,05) pour un degré de liberté (d.d.l) :

T = n₁ + n₂ −2

Si la valeur absolue de t (|t|) est supérieure à la valeur critique, alors la différence est significative. Dans le cas contraire, elle, ne l’est pas. Le degré de significativité ou p-value correspond au risque indiqué par la table de Student pour la valeur |t|

(17)

T= 30+30-2=58

(18)

•tobs < t_ddl ; α = 5% : m₁ n'est pas significativement différent de m2

•tobs ≥ t_ddl ; α = 5% : m₁ diffère significativement de m2

tobs = 3,35

t₅₈ ; α = 5% = 1,678

(19)

La différence observée sur l’index de tartre entre les groupes

« témoin » et « supplément » est donc significative. Elle permet de conclure à un effet du supplément alimentaire sur l’index de tartre.

Pour comparer deux moyennes observées m₁et m₂ sur deux échantillons indépendants de taille n1 et n2 ,

• On vérifie que les distributions observées sont proches de lois normales et/ou que les effectifs sont suffisamment grands (≥30)

• Les variances sont assez proches pour pouvoir être supposées égales

(20)

Exemple 2: Comparaison de deux pourcentages observés Échantillons indépendants

Test de l’écart réduit (Test Z).

Problème : comparer 2 proportions (p1 et p2) dans 2 groupes indépendants de tailles n₁et n₂

 Comparer ₁à ₂

(21)

Formuler une hypothèse Hypothèse nulle H

₀

Les 2 échantillons sont issus de la même population ayant comme pourcentage 

₀



₁

= 

₂

(= 

₀

) où 

₁

et 

₂

pourcentages de la population dont sont issus les échantillons 1 et 2

Hypothèses alternatives H

₁

Test bilatéral : 

₁

≠ 

₂

Test unilatéral : 

₁

< 

₂

ou 

₁

> 

₂

(22)

1. Fixer le risque α

2. Choisir la statistique :

• Test du χ2 (loi du χ2)

• Test z (loi normale)

• Conditions d’application :

• n₁. ₀ ≥ 5 et n₁.(1- ₀) ≥ 5

• n₂. ₀ ≥ 5 et n₁.(1- ₀) ≥ 5

(23)

 Test z

• Calculer la valeur z prise par la statistique Z –

– p

₀

est l'estimation de la proportion commune π

₀

– Z suit une loi normale centrée réduite

– Conditions d’application :

• n

₁

. π

₀

≥ 5 et n

₁

.(1- π

₀

) ≥ 5

• n

₂

. π

₀

≥ 5 et n

₂

.(1- π

₀

) ≥ 5

2 0 0

1 0 0

2 1

n

) p .(1 p n

) p .(1 p

p z p

+ −

−

= −

2 1

2 2 1

1

0

n n

.p n .p

p n

+

= +

avec

χ

²

= (z)

²

C

_ij

≥ 5

χ

²

à 1 ddl est le carré d’une loi normale

centrée réduite

(24)

 Test z

Confronter z à la valeur critique z _α

Test bilatéral : on rejette H

₀

si |z|≥ z

_α

Test unilatéral :

si H

₁

s’écrit π

₁

> π

²

, on rejette H

₀

si z ≥ z

₂_α

si H

₁

s’écrit π

₁

< π

²

, on rejette H

₀

si z ≤ -z

_2α

(25)

 Test z : exemple

On désire comparer l’efficacité de deux traitement T1 et T2 sur 100 patients atteints d’unemaladie M.

On tire au sort deux groupes de 50 patients, un groupe est soumis à T1, le second à T2.

Le pourcentage de guérison chez les patients soumis à T1 est de 30% et chez ceux soumis à T2 est de 40%.

Le taux de guérison est-il significativement différent entre les deux traitements?

1- Poserl’hypothèse nulle:

▪ H0: le taux de guérison n’est pas différent entre les deux traitement p1=p2.

▪ H1: le taux de guérison est différent entre les deux traitement p1≠p2

(26)

(27)

(28)

5- Lecture z = 1,05

z = 1,05 < z_0,05 = 1,96 : H₀ acceptable

Table de l’écart réduit (loi Normale)

V. Introduction aux tests statistiques Biostatistique

Biostatistique