Biostatistique Appliquée

(1)

Université frères Mentouri. Constantine1 Faculté des sciences de la nature et de la vie

Département de biologie appliquée

Licence

Bio-informatique

Matière

Dr. Habiba BOUHALLOUF

Année universitaire 2020/2021

Biostatistique

Appliquée

(2)

III

6 Théorie statistique de l’estimation

6.1 47Définition

6.2 Estimation ponctuelle 6.3 Estimation par intervalle

7 Tests statistiques

. . . 52 7.1 Définition

7.2 Condition d’utilisation d’un test 7.3 Conditions d’application

7.4 Principe des tests de comparaisons

7.5 Hypothèses nulle et hypothèse alternative 7.6 Etapes d’un test statistique

8 Tests de comparaison

. . . 58 8.1 Introduction

8.2 Test Z de l’écart réduit

Estimations et Tests

Statistiques

(3)

(4)

6. Théorie statistique de l’estimation

Du point de vue pratique, il est souvent très important de pouvoir obtenir de l’informa- tion sur la population à partir des échantillons. De tel problème se trouve dans la décision statistique, qui utilise le principe de la théorie d’échantillonnage comme le problème d’estimation des paramètres d’une population (moyenne, variance, pourcentage, ...) à partir des statistiques d’échantillonnage correspondantes.

Faire une estimamtion, c’est tenter de définir les paramètres d’une population à partir des paramètres observés sur un échantillon.

Lorsqu’on observe un paramètre sur un échantillon, on pressent :

1. que la valeur observée a fort peu de chances d’être exactement la valeur inconnue de la population.

2. que cette valeur est néanmoins assez proche de la valeur inconnue si notre échantillon est représentatif.

3. qu’en répétant l’échantillonnage, on trouverait d’autres valeurs, toutes assez proches les unes des autres.

Ces trois hypothèses sont une sorte de pari. Nous parions que la valeur observée est proche de la valeur exacte. Mais il faut préciser ce que l’on entend par "proche".

Le but de l’estimation en statistique est de calculer les bornes qui permettent de situer avec une confiance suffisamment grande où se trouve la valeur inconnue du paramètre dans la population. Une estimation aboutit donc à calculer ce qu’on nomme "intervalle de confiance". Ce terme est parfois appelé trivialement "fourchette d’estimation".

Le statisticien se sait donc incapable de connaître la vraie valeur, mais il en fournit modestement une estimation à l’aide de deux bornes.

(5)

48 Chapitre 6. Théorie statistique de l’estimation

6.1 Définition

Soit une variablexà étudier : il s’agit d’otenir une approximation d’un certain para- mètreq de sa distribution (médiane, moyenne, variance, ...) à partir denvaleurs :x1,x2, ...,xndex.

En considérant x₁ : la réalisation d’une variable aléatoire X₁, x₂ : la réalisation d’une variable aléatoireX₂, ...,x_n: la réalisation d’une variable aléatoireX_n.

On dit queX₁,X₂, ...,X_nforment un échantillon de la variableX ayant la taille (effectif)n.

6.2 Estimation ponctuelle

Le terme estimation désigne aussi le résultat de procédé : on dira donc que t (la valeur calculée sur l’échantillon) est l’estimationponctuelle de q (la valeur théorique de la distribution), mais on dira aussi quet est un paramètre d’échantillon (estimant un paramètre de distribution).

6.2.1 Médiane d’échantillon

Une première estimation simple concerne la médiane. La médiane théorique d’une variable étudiée dans une population deNindividus est située au milieu de la liste des valeurs individuelles classées par ordre croissant.

Donc, sur un échantillon denvaleurs classées par ordre croissant (x1x2...,x_k ...,xn), la grandeurtest, par définition, la valeur centrale si le nombre des observations est impair, ou la demi-somme des deux valeurs centrale si le nombre des observation est pair :

t=x_k+1 t=x_k+x_k+1

2 (6.1)

6.2.2 Moyenne d’échantillon

La moyenne théorique d’une variable étudiée dans une population de N individus s’obtenant par la formuleµ= x₁+x₂+...+x_N

N . Sachant que la moyenne d’échantillon est : ¯x=x₁+x₂+...+xn

n . Icit=x, est une estimation de¯ µ.

6.2.3 Variance d’échantillon

La variance théorique d’une variable étudiée dans une population deNindividus : s_p²=(x1 µ)²+ (x2 µ)²+ ... + (xN µ)²

N

mène à utilisert=s_e², comme estimation de la variances_p². 6.2.4 Estimateurs non biaisés

Si la moyenne d’une statistique d’échantillonnage est égale au paramètre correspondant de la population, on dit que la statistique est un estimateur non biaiséde ce paramètre.

(6)

6.3 Estimation par intervalle 49 Dans le cas contraire, on dit que l’on a unestmateur biaisé.

la moyenne :moy(x) =¯ µ=)x¯est une estimation non biaisée.

la variance :moy(s_e²) = ^N_N¹s_p²=)s_e²est une estimation biaisée.

oùs_p²est la variance de la population.

Remarque

En terme de propbabilité, on dira qu’une statistique est non biaisée si son espérance mathématique est égale à la valeur du paramètre de la population correspondant :

E(x) =¯ µ (6.2)

E(s_e²) =s_p² (6.3)

6.2.5 Estimateurs efficaces

Quand on désire estimer la moyenne, la distribution d’échantillonnage de deux statistiques ont la même espérance, la statistique qui a la variance la plus faible est appelée

"estimateur efficace"de la moyenne, et l’autre statistique sera donc"l’estimateur ineffi- cace". Parfois, l’estimateur efficace est nomé"meilleur estimateur".

6.3 Estimation par intervalle

Quand, dans une population, l’estimation d’un paramètre est donnée par un seul nombre, on dit que c’est une"estimation ponctuelle"du paramètre.

Quand on estime un paramètre d’une population donnée par deux nombres entre lesquels celui-ci peut varier, on dit que l’on a une"estimation par intervalle"de ce paramètre. Et on appelle l’erreur de précision d’un estimateur :"confiance"ou"fiabilité".

6.3.1 Estimation d’une moyenne inconnue a. Estimation d’une moyenne d’un échantillon

On considère que la population est nombreuse (n 30) de moyenneµ et de l’écart-type sprelatif à un caractère quatitatif.

On désigne par ¯x, la moyenne d’un échantillon prélevé au hasard de la population.

D’après le théorème central limite, on démontre que ¯xsuit une loi normale d’esperance mathématiqueµ et de variances²=^s_n^p² lorsque la taille de l’échantillon estn 30.

Definition 6.3.1 On peut exprimer ¯xdans un intervalle comme suit : µ t_a sp

pn  x¯  µ + t_a sp

pn (6.4)

La probabilité pour que la moyenne ¯xsoit dans l’intervalle I=h

µ t_a^p^s^p_n, µ+t_a^p^s^p_ni est :

P(I) =1 a (6.5)

(7)

50 Chapitre 6. Théorie statistique de l’estimation Risque d’erreura

Ici on appelle l’intervalleI,intervalle de confiance,(1 a)s’appelleSeuil de confiance eta,risque d’erreur.

ta est une valeur donnée parla table de la loi normale centrée réduite.

D’après les propriètés de la loi normale, on choisit on général, le risque d’erreur(a=5%), et dans certain cas, on donne(a=1%):

1. poura=5%, on choisitt_a =1.96, et dans ce casP(I) =0.95.

2. poura=1%, on choisitt_a =2.6, et on donneP(I) =0.99.

b. Estimation d’une moyenne d’une population

Le problème qui se pose généralement est d’estimer la moyenneµ de la population à partir des paramètres observés dans l’échantillon choisit au hasard, c-à-d : en fonction de (x,¯ n,se), oùseest l’écart-type de l’échantillon.

Definition 6.3.2 L’intervalle de confiance dans lequel on estime trouver la moyenne associée à la population est donnée par :

¯

x t_a se

pn 1  µ  x¯ + t_a se

pn 1 (6.6)

On donne : sp2⇡ n

n 1 s_e² (6.7)

La quantité : h=t_a^p^s_n^e₁, s’appelle"la précision de l’estimation".

6.3.2 Estimation d’un pourcentage inconnu

Lorsquòn a un pourcentage sur un échantillon, le problème est d’estimer le véritable pourcentagePinconnu de la population d’où est extrait l’échantillon.

a. Intervalle de confiance d’un pourcentage

Estimer la valeur du pourcentage inconnu de la population à partir d’une observation sur un seul échantillon, c’est estimer un intervalle dans lequel le pourcentage inconnuPà la plus grande probabilité de se trouver.

Definition 6.3.3 D’après le théorème central limite, il y a 95% de chances que le pourcentagePde la population se trouve compris dans l’intervalle :

p 1.96

rp(1 p)

n  P p+1.96

rp(1 p)

n (6.8)



p 1.96q

p(1 p)

n , p+1.96q

p(1 p)

n est l’intervalle de confiance à 95% du pourcentage Pde la population, où : pest le pourcentage calculé sur l’échantillon.

(8)

7. Tests statistiques

7.1 Définition

Le test statistique est l’outil de la comparaison, de même que le calcul de l’intervalle de confiance était l’outil statistique de l’estimation.

Une comparaison statistique porte des séries de données qui sont en moyenne, pourcentage, distribution par classes, indicateurs de liaison entre deux variables, ... ect.

7.2 Condition d’utilisation d’un test

Un test statistique doit être réalisé dans le cadre d’une réflexion scientifique qui consiste à bâtir des hypothèses à partir des faits antérieurs observés. Ensuite, ces hypothèses sont testées et selon les résultats des tests, elles sont soit rejetées, soit acceptées. Puis de nou- velles hypothèses peuvent ensuite être bâties et à nouveau testées.

Donc un test statistique n’a de sens que s’il teste une hypothèsepréalablementposée afin de répendre à une question :

Observation ! Hypothèse ! Test

7.3 Conditions d’application

Tous les tests sont basés sur les lois du distributions théoriques issues de la théorie des probabilités.

Une série d’observations portant sur une variable peut être décrite soit par des paramètres résumant la distribution (moyenne, pourcentage, variance, ...), soit par la distribution des effectifs sous forme de tebleau ou diagramme.

Donc il existe parallèlement deux familles de tests :

(9)

7.4 Principe des tests de comparaisons 53

— Les tests paramétriques qui composent des paramètres.

— Les tests semi-paramétriques (test de c²) et les tests de rang qui comparent des distributions.

7.4 Principe des tests de comparaisons

Il existe schématiquement deux situations de comparaison : 1. Comparer un échantillon observé à une population de référence.

2. Comparer deux ou plusieurs échantillon entre eux.

7.5 Hypothèses nulle et hypothèse alternative

7.5.1 Hypothèse nulleH₀

Cela consiste à poser à priori l’hypothèse que les paramètres ou les distributions des populations d’où sont issus les échantillons étudiés, sont identiques :

Hypothèse nulleH₀

Paramètrede laPopulation 1 ,= Paramètrede laPopulation 2

Proposer l’hypothèse nulle c’est supposer que la différence observée provient seulement des fluctuations d’échantillonnage.

7.5.2 Hypothèse alternativeH₁

L’hypothèse alternativeH₁est l’hypothèse qui sera retenue au cas où les résultats du test aboutiraient à rejeter l’hypothèse nulleH₀.

Selon le la nature du problème, on distingue deux types d’hypothèses alternatives : a. Hypothèse alternative bilatérale

On choisit l’hypothèse alternative bilatérale lorsqu’on ne cherche pas à connaître le sens de la différence :

Hypothèse alternativeH₁bilatérale

Paramètrede laPopulation 1 6=m Paramètrede laPopulation 2

(10)

54 Chapitre 7. Tests statistiques b. Hypothèse alternative unilatérale

On choisit l’hypothèse alternative unilatérale lorsqu’on s’intéresse à un sens particulier de l’intégralité des deux paramètres tel que :

Hypothèse alternativeH₁unilatérale

Paramètrede laPopulation 1 >m Paramètrede laPopulation 2 Paramètrede laPopulation 1 ou< Paramètrede laPopulation 2

TABLE7.1 – Hypothèses Hypothèse Comparaison de paramètres ou

de distributions Liaison entre deux variables

H₀ Les paramètres ou les distributions

sont identiques Absence de liaison

H₁bilatérale - Les paramètres ou les distributions

sont différents - Présence d’une liaison

H₁unilatérale - Un des paramètres est supérieur à

l’autre - Présence d’une liaison

7.6 Etapes d’un test statistique

Quelque soit le test utilisé, la méthode du test d’hypothèse comporte les étapes suivantes :

1. Formulation de l’hypothèse nulleH0. 2. Choix de test statistique qui convient.

3. Choix du seuil de signification, il est implicitement égale à 5% si rien n’est spécifié.

4. Conditions d’application du test statistique.

5. Exécution du test statistique.

6. Décision au seuil choisi et le sens de la liaison.

La décision consiste donc à rejeter ou à retenir H0 et dépend seulement du seuil de signification choisi.

7.6.1 Espèces d’erreur

Lorsque l’on fait un test d’hypothèse, deux sortes d’erreur sont possibles :

(11)

7.6 Etapes d’un test statistique 55

— On peut rejeter l’hypothèse nulle alors qu’elle est vraie ; cela se produit si la valeur de la statistique de test tombe dansla région de rejetalors que l’hypothèseH₀est vraie, la probabilité de cet événement est le niveau de signification (probabilité de rejeterH₀à tort) est appelérisque d’erreurouerreur de première espèceet on le notea.

— Si on ne rejette pasH₀alors qu’elle est fausse, on commette uneerreur de second espèceou (manque d’erreur) et se note conventionnementb. C’est le cas si la valeur de la statistique de test tombe dansla région de non rejet(ou d’acceptation) alors queH0est fausse (c’est-à-dire siH1est vraie).

Zone de rejet

SoitU le paramètre test tel que : 1. Pourles moyennes :

U=x¯ µ

sp

pn

(7.1) 2. Pourles pourcentages :

U= f p

qp(1 p) n

(7.2) où :

- ¯xet f sont la moyenne et la fréquence dexdans l’échantillon de taillen, respectivement.

- µ et psont la moyenne et la fréquence dexdans la population ayant l’écart-typesp. Au risquea choisi, correspond un intervalle[ ta , +ta].(1 a)(voir la figure 9.1) est la chance de se trouver.

Donc la zone de rejet de l’hypothèseH₀comprend deux parties comme il est montré dans la (figure 9.2) : Alors :

1. Si : |U| t_a,

Utombe dans la zone de rejet deH₀avec erreur de première espèce.

2. Si : |U|  ta,

U ne tombe pas dans la zone de rejet deH0, on ne rejette pasH0. Si on l’accepte, cette décision est associée à un risque d’erreur du deuxième espèceb.

7.6.2 Puissance du test

Lorsque la valeur inconne est dans H1, la probabilité d’obtenir un résultat dans la région de rejet est appelée"Puissance du test"deH₀face àH₁. Elle dépend de plusieurs

(12)

56 Chapitre 7. Tests statistiques

FIGURE7.1 – Risque d’erreur et zone de rejet deH₀

FIGURE7.2 – Zone d’acceptation et zone de rejet deH₀ facteurs :

— Le niveau de signification du test (risque d’erreur).

— La vraie valeur du paramètre testé.

— La taille de l’échantillonn(la puissance augmente avecn).

— Le type du test utilisé.

De manière générale, plus on tient compte d’informations pertinentes dans un test plus sa puissance est élevée.

7.6.3 Synthèse

— Les risques d’erreursa etb sont antagonistent, si on choisit un risquea très petit, on ne peut le plus souvent rejeterH0.

— On choisit le plus souvent, un risque d’erreura de 5% (seuil de signification), dans ce cas la puissance de test est(1 b).

Réalité Décision de ne pas rejeterH₀ Décision de rejeterH₀

H₀vraie 1 a a

H₀fausse b 1 b

TABLE7.2 – Puissance du test statistique

(13)

8. Tests de comparaison

8.1 Introduction

Dans ce chapitre, on s’intéresse aux lois de distribution théoriques principales utilisées pour les tests statistiques de comparaison :

— La loi normale centrée réduite Z.

— La loi de Student T.

— La loi de Fisher F.

— La loi dec².

8.1.1 Comment choisir un test statistique ?

Le choix d’un test statistique dépend de plusieurs facteurs qu’on doit péalablement identifier :

La nature des variables à comparer : vérifier si

— la variable est quatitative (continue ou discrète).

— la variable est qualitative (binaire, nominale à plusieurs classes ou ordinale).

Les grandeurs étudiées : vérifier si :

— la grandeur est une moyenne.

— la grandeur est une variance.

— la grandeur est un pourcentage.

— la grandeur est un effectif.

— ...

(14)

8.1 Introduction 59

La nature du problème : vérifier si on doit

— comparer un échantillon à une population de référence.

— comparer deux échantillons.

— comparer plusieurs échantillons.

Le type de séries comparées : vérifier si :

— les séries sont appariées.

— les séries sont indépendantes.

La taille des échantillons : vérifier si :

— l’échantillon a un grand nombre d’individus.

— l’échantillon a un petit nombre d’individus.

Les conditions d’application des tests : vérifier s’il s’agit d’une

— normalité des distributions associées à la population d’où est issu l’échantillon.

— égalité des variances.

— taille minimale des échantillons.

8.1.2 Principaux tests de comparaison et domaine d’application

Les tests de comparaison servent à comparer les moyennes, les variances, les pourcentages, ... des différentes distributions.

Leur principe consiste á poser une hypothèse nulleH₀et de décider de l’accepter si l’égalité entre les paramètres est vérifiée ou de la rejeter si elle n’est pas vérifiée au profit d’une hypothése alternativeH1.

Pour effectuer le calcul du test, on choisit selon la nature de la comparaison la loi de distribution à suivre :

1. La loi normale centrée réduite (Z)sert à comparer :

— deux moyennes.

— deux moyenne observées de deux séries appariées.

— une moyenne observée à une moyenne théorique.

2. La loi de Student (T)sert à comparer :

— deux moyennes.

— deux moyenne observées de deux séries appariées.

— une moyenne observée à une moyenne théorique.

3. La loi de Fisher (F)sert à comparer :

(15)

60 Chapitre 8. Tests de comparaison

— deux variances.

— plusieurs moyennes.

— deux pourcentage.

4. La loi (c²)sert à comparer :

— une distribution observée à une distribution théorique.

— plusieurs distributions.

— plusieurs pourcentages.

8.2 Test Z de l’écart réduit

8.2.1 Comparer une moyenne observée à une moyenne théorique Conditions

Soit la variable quantitative x d’un échantillon de grande taille (n 30) ayant la moyenne ¯xet l’écart types.

On cherche à décider si la moyenne de l’échantillon ¯xet la moyenne d’une population de référenceµ sont significativement différentes. On teste alors, au risque dea :

* l’hypothèse nulleH₀: ¯x=µ.

* l’hypothèse alternativeH1bilatérale : ¯x6=µ.

* l’hypothèse alternativeH1unilatérale : ¯x<µ ou ¯x>µ. Calcul

Pour identifier la région de rejet ou d’acceptation de l’hypothèse nulle, on calcule et on compare la quantité :

z= x¯ µ

psn

(8.1) avecz^a₂ pour l’hypothèse bilatérale ou avecza si l’hypothèse est unilatérale.

Si on prenda=5% :z^a₂ =1,96 etza =1,65.

Décision

H1 Z H0 Décision

bilatérale |z|<z^a

2 accepée x¯n’est pas significativement différente deµ bilatérale |z| z^a₂ rejetée x¯est significativement différente deµ unilatérale z<z_a accepée x¯n’est pas significativement supérieure

(ou inférieure) àµ

unilatérale z z_a rejetée x¯est significativement supérieure (ou inférieure) àµ On trouve les valeurs deza etz^a₂ dans la table de la loiZde la loi normale centrée réduite.

(16)

8.2 Test Z de l’écart réduit 61 8.2.2 Comparer deux moyennes

Conditions

Maintenant on veut comparer deux moyennes ¯x₁, ¯x₂de deux échantillons indépendants de tailles supérieurs à 30(n₁ 30,n₂ 30). Sachant les écart types(s1,s2), On pose au risque dea, les hypothèses nulle et alternative :

* H0:µ1=µ2.

* H₁bilatérale :µ₁6=µ₂.

* H₁unilatérale :µ₁<µ₂ouµ₁>µ₂.

oùµ1,µ2sont les moyennes inconnues des deux populations d’où sont issus nos échan- tillons.

Calcul

On calcul la quantitézà partir de la formule suivante : z= x¯₁ x¯₂

qs12

n1 +^s_n²²

2

(8.2)

Décision

H₁ Z H₀ Décision

bilatérale |z|<z^a₂ accepée ¯x₁n’est pas significativement différente de ¯x₂ bilatérale |z| z^a

2 rejetée x¯₁est significativement différente de ¯x₂ unilatérale z<z_a accepée x¯₁n’est pas significativement supérieure

(ou inférieure) à ¯x2

unilatérale z za rejetée x¯1est significativement supérieure (ou inférieure) à ¯x2

On trouve les valeurs dez_a etz^a₂ dans la table de la loiZde la loi normale centrée réduite.

8.2.3 Comparer deux moyennes pour deux séries appariées Conditions

Dans ce cas, nous avons un seul échantillon de taille(n 30). On désire comparer deux valeurs qui appartiennent à deux séries de valeurs dites appariées d’une même grandeur (ici la moyenne) observée chez un individu. Chaque couple de mesures constitue une paire ((x_i,y_i),i=1,¯n).

Le principe est de construire des paires de mesure puis calculer la différence observée pour chacunedi=|xi yi|.

Pour cela on pose les hypothèses nulle et alternative en fonction des moyennes calculées à partir des différences trouvées ( ¯x_d ets_d) :

(17)

* H₀: ¯x_d=0.

* H₁bilatérale : ¯x_d6=0.

* H₁unilatérale : ¯x_d<0 ou ¯x_d>0.

où

¯

x_d=

Â

^dⁱ ^(8.3)

Calcul

On calcul la quantitézà partir de la formule suivante : z= x¯_d 0

qsd2

n

(8.4) où

s_d²= 1

n 1

✓

Â

^dⁱ² ¹_n⁽

Â

^dⁱ⁾²^◆ ^(8.5)

Décision

H₁ Z H₀ Décision

bilatérale |z|<z^a

2 accepée les moyennes des séries ne sont pas significativement différentes

bilatérale |z| z^a₂ rejetée les moyennes des séries sont significativement différentes

unilatérale z<z_a accepée les moyennes des 2 séries sont significativement différentes

unilatérale z z_a rejetée la moyenne d’une série est significativement supérieure (ou inférieure) à l’autre

On trouve les valeurs deza etz^a₂ dans la table de la loiZde la loi normale centrée réduite.

8.3 Test T de Student

8.3.1 Comparer une moyenne observée à une moyenne théorique Conditions

On a vu qu’on peut utiliser le testZ pour comparer une moyenne observée à une moyenne connue dans une population de référence lorsqu’il s’agit d’un échatillon ayant une taille supérieures ou égale à 30.

Pour les petits échantillons(n<30), on utilise plutôt le test de Student.

En effet, soient ¯xetsla moyenne observée et l’écart type de l’échantillon respectivement, etµ la moyenne de la population de référence.

On au risque de (a =10%), pose les hypothèses nulle et alternatives au risque de (a =10%) :

(18)

8.3 Test T de Student 63

* H₀: ¯x=µ.

* H₁bilatérale : ¯x6=µ.

* H₁unilatérale : ¯x<µ ou ¯x>µ. Calcul

de la même façon, on calcule la valeur det du test de Student : t=x¯ µ

psn

(8.6) Si l’hypothèse nulle ( ¯x=µ) est vraie (au risque dea=10%), la quantitét suit une loiT de Student à(n 1)degrés de liberté(ddl).

Décision

H₁ T H₀ Décision

bilatérale |t|<t^a₂ accepée x¯n’est pas significativement différente deµ bilatérale .|t| z^a

2 rejetée x¯est significativement différente deµ unilatérale t<z_a accepée x¯n’est pas significativement supérieure

(ou inférieure) à µ

unilatérale t z_a rejetée x¯est significativement supérieure (ou inférieure) àµ On trouve les valeurs det_5% ett_10%dans la table de la loi de Student.

8.3.2 Comparer deux moyennes Conditions

On choisit le test de Student aussi lorsqu’on désire comparer deux moyennes observées dans deux échantillons de petites tailles (n₁<30,n₂<30 ).

En effet, on pose les hypothèses :

* H₀:µ1=µ2.

* H1bilatérale :µ16=µ2.

* H1unilatérale :µ1<µ2ouµ1>µ2.

oùµ₁,µ₂sont les moyennes inconnues des deux populations d’où sont issus nos échan- tillons.

Calcul

On calcul la quantitézà partir de la formule suivante : t= x¯₁ x¯₂

qs12

n1 +^s_n²²

2

(8.7) avec un nombre de degrés de liberté(ddl=n₁+n₂ 2).

(19)

64 Chapitre 8. Tests de comparaison Décision

H1 T H0 Décision

bilatérale |t|<t^a₂ accepée ¯x1n’est pas significativement différente de ¯x2

bilatérale |t| t^a₂ rejetée x¯₁est significativement différente de ¯x₂ unilatérale t<t_a accepée x¯₁n’est pas significativement supérieure

(ou inférieure) à ¯x₂

unilatérale t t_a rejetée x¯₁est significativement supérieure (ou inférieure) à ¯x₂

On trouve les valeurs det_5% ett_10%dans la table de la loi de Student.

8.3.3 Comparer deux moyennes pour deux séries appariées Conditions

Ce cas est similaire à celui où on utilise le testZpour comparer deux moyennes de deux séries apparées observées dans un seul échantillon. Ce dernier doit avoir une taille inférieure à 30. En effet :

* H₀: ¯x_d=0.

* H₁bilatérale : ¯x_d6=0.

* H₁unilatérale : ¯x_d<0 ou ¯x_d>0.

oùµ1,µ2sont les moyennes inconnues des deux populations d’où sont issus nos échan- tillons.

Calcul

On calcul la quantitét à partir de la formule suivante : t=x¯_d 0

qsd2

n

(8.8)

où ¯x_dets_d sont la moyenne des diffénces des moyennes (respectivement des écart types) des paires :

¯

x=

Â

^dⁱ^,

s_d²= 1

n 1

✓

Â

^dⁱ² ¹_n⁽

Â

^dⁱ⁾²^◆

Le nombre de degrés de liberté est :dll=n 1.

(20)

8.4 Test F de Fisher 65 Décision

H1 T H0 Décision

bilatérale |t|<t^a

2 accepée les moyennes des séries ne sont pas significativement différentes

bilatérale |t| t^a₂ rejetée les moyennes des séries sont significativement différentes

unilatérale t<t_a accepée les moyennes des 2 séries sont significativement différentes

unilatérale t t_a rejetée la moyenne d’une série est significativement supérieure (ou inférieure) à l’autre On trouve les valeurs det_5% ett10%dans la table de la loi de Student.

8.4 Test F de Fisher

8.4.1 Comparer deux variances Conditions

On utilise le test de Fisher lorsqu’il s’agit de comparer deux variancess12ets22de deux séries indépendantes de variables quantitatives quelque soit la taille des échantillons (n1etn2).

Pour cela soient au risque dea=5%, les hypothèses :

* H0:s12=s22.

* H₁bilatérale :s₁²6=s₂².

* H₁unilatérale :s₁²<s₂²ous₁²>s₂².

oùs₁ ets₂sont respectivement les variances inconnues des deux populations d’où sont issus les échantillons.

Calcul

Soits₁²la variance la plus élevée, on définit la quantitéF par : F=s₁²

s22 (8.9)

avec : (dll1=k1=n1 1), (dll2=k2=n2 1) et (a =5%).

Décision

H₁ F H₀ Décision

bilatérale |F|<F^a₂ accepée s12n’est pas significativement différente des22

bilatérale |F| F^a₂ rejetée s₁²est significativement différente des₂² unilatérale F<F_a accepée s12n’est pas significativement différente des22

unilatérale F Fa rejetée s₁²est significativement supérieure às₂²

(21)

66 Chapitre 8. Tests de comparaison On trouve les valeurs deF_5%etF_2,5% dans la table de la loi de Fisher.

8.4.2 Comparer plusieurs moyennes Conditions

On choisit le test de Fisher également lorsqu’on désir comparer les moyennes observées lors d’une experience d’une variable quantitative pour plusieurs échantillons. Pour cela les distributions des populations d’où proviennent les échantillons doivent suivre la loi normale et avoir la même variance.

En effet, au risque de (a=5%), les hypothèses nulle et alternatives sont :

* H₀: Les moyennes ne sont pas significativement différentes.

* H1: Les moyennes sont significativement différentes.

Alors, si les séries étudiées sont indépendantes, on test le rapport entre deux variances : 1. La variance entre individus de chaque série (variance résiduelle) (s_r²).

2. La variance entre les séries étudées (variance générale) (sg2).

où

sg2=Â^x_nⁱ²_i ^x_N^g²

c 1 , sr2=Âx² Â^x_nⁱ²_i

N c (8.10)

avec :

* x_i: est la somme des valeurs observées sur chaque série.

* xg: est la somme des valeurs observées sur toutes les séries.

* Âx²: est la somme des carrées des valeurs observées sur toutes les séries.

* n: est le nombre des effectifs de chaque série.

* N: est le nombre des effectifs de toutes les séries.

* c: est le nombre de séries à comparer.

Calcul

on teste le rapport suivant : F=sg2

s_r² (8.11)

avec : (dll₁=k₁=c 1), (dll₂=k₂=N c) et (a=5%).

(22)

8.5 Test dec² 67 Décision

H1 F H0 Décision

bilatérale F<F_a accepée Les moyennes ne sont pas significativement différentes

bilatérale F Fa rejetée Les moyennes sont significativement différentes

8.5 Test de c

²

Il est fréquent d’avoir à comparer deux grandeurs caractérisées par des variables qualitatives comme en épidémiologie par exemple (malade / non malade).

On compare, Le plus souvent des distributions ou des pourcentages observés dans deux échantillons ou plus, mais parfois on est tombé dans des situations où on doit comparer un pourcentage observé dans un échantillon à un pourcentage théorique (de référence) pour savoir si la différence entre eux est due aux fluctuations d’échantillonnage ou elle correspond à une différence réelle.

Pour tous ça, si tous les effectifs théoriques (de référence) sont supérieurs ou égaux à 5, on utilise le test de comparaison dec²(chi-2).

8.5.1 Comparer une distribution observée à une distribution théorique (Test de c²d’ajustement)

Conditions

Les effectifs observés sont généralement différents des effectifs théoriques, donc on teste la conformité entre la distribution expérimentale et la distribution théorique. Ce genre de test se fait en utilisant "Test dec²" d’ajustement (ou de conformité) à condition d’avoir un nombre d’effectifs supérieur ou égal à 5.

On considère un échantillon de taille nextrait au hasard d’une population partagée en classes, chaque classe est une modalité de réalisation du caractère. Et on attribut les effectifs : f_o₁,f_o₂,f_o₃, ...,f_o_k, tels que :

n=

Â

i=1

kf_o_i (8.12)

où f_o_i sont appelés " effectifs observés ".

D’autre part, on attribut à ces classes les probabilités :P₁,P₂,P₃, ...,P_k. P_ireprésente la probabilité de présence de la modalité du caractère étudié dans la classei(i=1,¯k) avec :

i=1

Â

kP_i=1 (8.13)

Donc, on peut définir les effectifs théoriques en fonction des probabilités ainsi :

f_t_i=nP_i (8.14)

où

n=

Â

i=1

kf_t_i (8.15)

On peut finalement construire le tableau suivant :

(23)

Classe 1 2 ... i ... k Total

Effectifs Observés(f_o_i) f_o₁ f_o₂ ... f_o_i ... f_o_k n Effectifs Théoriques(f_t_i) f_t₁ f_t₂ ... f_t_i ... f_t_k n On pose alors les hypothèses suivantes au risque de (a =5% oua=1%) :

* H₀: "Il y a une conformité entre la distribution étudiée (expérimentale) et la distribution théorique".

* H₁: "Il y a une différence significative entre la distribution étudiée (expérimentale) et la distribution théorique".

Calcul

Pour décider si on accepte ou on rejette l’hypothèseH₀, on calcule la statistique dec²:

c²_c=

Â

i=1

k(f_o_i f_t_i)²

f_t_i (8.16)

c²_cdoit être comparée avecc²_a qui peut être obtenue par la table dec²en fonction de n =k 1 (kest le nombre de classes étudiées).

Décision

H₁ c² H₀ Décision

biilatérale c²_c<c²_a accepée Les distributions ne sont pas significativement différentes

biilatérale c²_c c²_a rejetée Les distributions sont significativement différentes

8.5.2 Comparer plusieurs pourcentages ( Test de c²d’homogénéité) Conditions

On applique le test dec² d’homogénéité pour comparer plusieurs distributions ou plusieurs pourcentages (pour une variable qualitative à plusieurs classes).

Comme nous avons vu dans la section précédente, on va s’intéresser aux effectifs plutôt que les pourcentages. Par conséquent, on obtient le tableau suivant :

échantillon! éch(1) éch(2) ... éch(j) Classe#

1 f_o₁₁ (f_t₁₁ ) f_o₁₂ ( f_t₁₂) ... f_o_1j (f_t₁_j) 2 f_o₂₁ (f_t₂₁) f_o₂₂ (f_t₂₂) ... f_o_2j (f_t₂_j) 3 f_o₃₁ (f_t₃₁) f_o₃₂ (f_t₃₂) ... f_o_3j (f_t₃_j)

... ... ... ... ...

i f_o_i1 (f_t_i1) f_o_i2 ( f_t_i2) ... f_o_{i j} (f_t_{i j})

(24)

8.5 Test dec² 69 f_o_{i j} (f_t_{i j}) sont respectivement les effectifs observés (les effectifs théoriques) de la classe (modalité du caractère) (i) de l’échantillon (j).

Tous les effectifs théoriques doivent être supérieurs ou égaux à 5 pour pouvoir appliquer la loi dec².

Au risque de (a=5%), les hypothèses nulle et alternative sont données par :

* H0: "Il n’ y a pas une différence significative entre les pourcentages (distributions).

* H₁: "Il y a pas une différence significative entre les pourcentages (distributions).

Calcul

Pour décider si on accepte ou on rejette l’hypothèseH₀ au risque de (a =5%), on calculec²_c:

c²_c=

Â

i=1 k

Â

j=1

c(f_o_{i j} f_t_{i j})²

f_t_{i j} (8.17)

c²_cdoit être comparée avecc²_a qui peut être obtenue par la table dec²à l’aide du nombre de degrés de liberté :dll = (c 1)(k 1)(kest le nombre de classes étudiées, cest le nombre d’échantillon).

Décision

H1 c² H0 Décision

biilatérale c²_c<c²_a accepée Les pourcentage (les distributions) ne sont pas significativement différentes

biilatérale c²_c c²_a rejetée Les pourcentage (les distributions) sont significativement différentes

(25)

VI Références bibliographiques

(26)

(27)

Références bibliographiques

1. T. Ancelle, "STATISTIQUE ÉPIDÉMIOLOGIE".

3^me édition Maloine 2011, (308 pages), Faculté de médecine, Université, Paris- Déscartes. ISBN : 978 2 334 03042 1.

2. D. Commenges, H. Jacqmin-Gadda, "Modèles biostatistiques pour l’épidémiologie".

1^meédition De Boeck Supérieur s.a., 2015, (416 pages), ISBN-13-9782807300262.

3. A. Bezzaoucha, "ÉPIDÉMIOLOGIE ET STATISTIQUE".

édition 3.01.4107, (262 pages), POU 12 1996, Ben Aknoun, Alger.

ISBN 9961.0.0214.8.

4. F. Carrat, A. Mallet, V. Morice, "BIOSTATISTIQUE".

2013, (179 pages), Faculté de médecine, Université Pierre et Marie Curie, ParisVI.

5. C. Huber, "BIOSTATISTIQUE 1 : Bases (Probabilités, Estimation et Tests".

UFR Biomédicale, Université René Descartes, Paris, (35 pages).

6. L. Foucan, "PROBABILITÉS ET STATISTIQUES".

(48 pages), PAPES 2012 2013

7. J. Bouyer, "MÉTHODES STATISTIQUES".

Médecine-Biologie INSERM 1996, (353 pages), Paris, ISBN 2 909455 74 2.

8. R. Bonita, R. Beaglehole et T. Kjellstr ¨om, "ÉLÉMENTS D’ÉPIDÉMIOLOGIE".

2^me édition, 2012, (233 pages), Organisation mondiale de la Santé "OMS".

ISBN 978 92 4 254707 8.

(28)

104

9. J. P. Vaughan, R. H. Morrow, "MANUEL D’ÉPIDÉMIOLOGIE POUR LA SANTé AU NIVEAU DU DISTRICT". 2^meédition, 1991, (186 pages), Organisation mondiale de la Santé "OMS". ISBN 92 4 254404 3.

10. A. Vergnenegre, "ÉPIDÉMIOLOGIE-ESSAIS CLINIQUES-ÉVALUATION".

2010 2011, (139pages), Faculté de Médecine de Limoges.