• Aucun résultat trouvé

La théorie du test statistique

N/A
N/A
Protected

Academic year: 2022

Partager "La théorie du test statistique"

Copied!
78
0
0

Texte intégral

(1)

UNIVERSITÉ MOHAMED KHIDER, BISKRA

FACULTÉ des SCIENCES EXACTES et des SCIENCES de la NATURE et de la VIE

DÉPARTEMENT DE MATHÉMATIQUES

Polycopié

:

Par

CHALA ADEL

Introduction aux Biostatistiques

2014-2015

(2)
(3)

Je dédie ce travail. . . .

A mes parents ils m’ont tous, avec leurs moyens, soutenu et donné

la force d’aller toujours plus loin.

A ma chère femme Houda.

A l’esprit du professeur Bahlali Seid

(4)

Table des Matière iv

Introduction

v

1 Introduction aux théories des probabilités et statistique : 1

2 La théorie du test statistique 3

2.1 Test de conformité : . . . 3

2.1.1 Comparaison d’une répartition observée à une répartition théorique "Test du 2". . . 3

2.1.2 Comparaison d’un pourcentage observé a un pourcentage théorique : . . . 4

2.1.3 Comparaison d’une moyenne observée a une moyenne cal- culée : . . . 5

2.2 Test de homogénéité : . . . 5

2.2.1 Comparaison des moyennes. . . 6

3 Analyse de la variance 9 3.1 Analyse de la variance à un facteur . . . 9

3.1.1 Structure des données . . . 9

3.1.2 Conditions d’application de l’analyse . . . 10

3.1.3 Modèle de l’analyse de variance . . . 11

3.2 Equation fondamentale de l’analyse de variance . . . 11

3.2.1 Pratique de l’analyse de variance . . . 12

3.2.2 Application et tableau de variation . . . 13

3.3 Analyse de la variance à deux facteurs . . . 13

3.3.1 Echantillons de plusieurs observations (de taille n) . . . 13

3.4 Echantillons d’une seule observation . . . 16

4 La régression linéaire simple 18 4.1 Estimation des paramètres et : . . . 19

4.1.1 La droite de régression . . . 19

4.2 La qualité de l’ajustement : . . . 20

iii

(5)

4.2.1 Interprétation . . . 20

4.3 Propriétés Statistiques de b et b : . . . 21

4.4 Intervalle de con…ance pour : . . . 21

4.5 Test de Student . . . 21

5 Exercices sur Tests des hypothèses 26

6 Exercice sur Analyse de la Variance à un Facteur 40 7 Exercice sur Analyse de la Variance à deux Facteurs 51 8 Exercice sur La régression Linéaire simple 68

(6)

En 3ème année, les étudiants de Sciences de la Nature et de la Vie se voient proposer des formations spécialisées nécessitant des connaissances et un savoir- faire statistiques qui ne peuvent être acquis en tronc commun. D’autre part, certains étudiants, sans envisager a priori une spécialisation statistique, peuvent désirer acquérir une formation approfondie en méthodes statistiques.

Cette formation est particulièrement appréciée pour un débouché profession- nel dans les domaines de l’expérimentation, et préparation de Master et post Doctoral.

Chaque méthode statistique est motivée par une présentation de problèmes concrets, par des utilisateurs dans di¤érents domaines : agronomie, écologie, génétique, médecine, ...

L’acquisition des méthodes statistiques, sur un plan théorique et pratique

’Bioinformatiques", est réalisée à partir de cours, de travaux dirigés et d’un projet personnel. L’usage et l’apprentissage des logiciels Statictica et XL Stat, occupe plus de la moitié des heures d’enseignement. Suivant les années, à la

…n du module, des études seront présentées par des utilisateurs (chercheurs, professionnels) dans divers domaines d’applications : écologie, génétique, envi- ronnement. Le module se termine par la présentation orale des projets réalisés par les étudiants.

Les connaissances acquises concernent l’estimation des paramètres, les tests statistiques (validité du modèle, e¤et des variables explicatives), la prévision et la sélection de variables dans le cadre du modèle linéaire (régression simple, analyse de la variance à plusieurs facteurs, analyse de la covariance).

Choix du modèle en fonction du type de données, structuration des données, traitement statistique et informatique (logiciel XL Stat) pour les modèles de régression multiple et d’analyse de la variance ou de la covariance, ainsi que pour des extensions de ce modèle (ACP, AFC).

Ce module apporte une formation solide en statistique inférentielle directe- ment exploitable dans de nombreux Masters Végétale ou Master Biologie Molé- culaires, ou options de Poste Doctoral. Il donne des compétences indispensables pour la collecte et le traitement de données expérimentales. En cela, il constitue un pré requis important pour des formations en génétique, écologie et en sciences de l’environnement (Master Biologie)

Mots clés : Statistique inférentielle, modèle linéaire (régression, analyse de v

(7)

la variance et de la covariance), modèles mixtes (e¤et aléatoire), sélection de variables

(8)

Introduction aux théories des probabilités et statistique :

Lorsqu’on veut étudier les données relatives aux caractéristiques d’un en- semble d’individus ou d’objets il est di¢ cile d’observer toutes les données lorsque leurs nombres sont élevés. Au lieu d’examiner l’ensemble qu’on appelle popula- tion on examine un nombre restreint qu’on appelle échantillon, pour être repré- sentatif l’échantillon doit être pris au hasard (une population peut-être …nie ou in…nie).

Population : C’est l’ensemble sur lequel porte l’étude statistique.

Individus :Les éléments de cet ensemble.

Echantillon : Est un sous-ensemble de la population.

Caractère : C’est le trait ( ou propriété) choisi pour l’étude statistique.

Modalités : Les di¤érentes positions que peut prendre un caractère. Usage on numérote les modalités de 1 à k la modalité numéro iest notée Ci

E¤ectifs : Lorsque la population est répartie sur les di¤érentes modalités nous obtenons pour chacune d’elles un nombre c’est le nombre des individus ayant cette modalité. On note habituellement ni l’e¤ectif correspondant à la modalitéCi : les fréquence absolu.

Fréquence relative :Par dé…nition c’est le rapport entreni etN, oùN est la somme totale des individus.

Nous allons ainsi adopter les dé…nitions suivantes :

*Un caractère est dit quantitatif quand ses di¤érentes modalités sont mesu- rables par des nombres qui en indiquent l’intensité.

*Un caractère est dit qualitatif quand ses di¤érentes modalités ne peuvent 1

(9)

être désignées que par leurs qualités.

*Une variable statistique est dite discrète lorsque ses modalités ne peuvent être que des nombres isolés.

*Une variable statistique est dite continue quand elle peut prendre n’importe quelle valeur dans un intervalle donné.

* Le mode : c’est la valeur la plus fréquente.

* La médiane : C’est la valeur de la variable statistique qui partage la population en deux populations d’e¤ectifs égaux.

* Les quartiles : Comme on a dé…nie la médiane on peut dé…nir des para- mètres qui la répartissent en quarts.

* La moyenne arithmétique: est égale par dé…nition Xn= 1nPn 1Xi: b/ Caractéristiques de dispersion :

* L’étendue : C’est la longueur de l’intervalle sur lequel se disperse la va- riable.

*L’écart-interquartiles : C’est la di¤érence entre les deux quartiles Q1 et Q3:

* La variance : C’est la caractéristique qui est réellement utilisée pour mesurer la dispersion :

(10)

La théorie du test statistique

2.1 Test de conformité :

Les tests de conformité sont destinés à véri…er si un échantillon peut être considéré comme extrait d’une population donnée ou représentatif de cette po- pulation, vis-à-vis d’un paramètre comme la moyenne, la variance ou la fréquence observée. Ceci implique que la loi théorique du paramètre est connue au niveau de la population.

2.1.1 Comparaison d’une répartition observée à une ré- partition théorique "Test du

2

".

La répartition théorique ayant été choisie, il est naturel de se demander si elle représente bien la répartition expérimentale ; Si elle lui est bien conforme. La véri…cation de la conformité de la répartition théorique choisie à la répartition

expérimentale donnée est faite au moyen du test du 2: Test du 2 : Le test du 2 se fait selon les étapes suivantes :

1/ On pose l’hypothèse nulle : H0" Il y a un conformité ( ou concordance) entre la répartition théorique et la répartition expérimentale"

2/ On calcule la quantité suivante :

2 obs =

Xk 1

(Oi Ci)2 Ci

; où : Oi :e¤ectifs observés.

Ci : L’e¤ectifs calculées.

3

(11)

k : c’est le nombre de modalités.

3/ Conclusion : Etant donnée un seuil de signi…cation ; On utilise alors la table de 2(k 1). On le note 2:On applique ensuite la règle de décision suivante :

a) Si 2obs 2 On dit alors queH0 est rejetée

b) Si 2obs < 2; l’hypothèse H0 est retenue c’est à dire que : la distribution observée est conforme à la distribution théorique.

Remarque importante : Le test du 2 ne peut être utilisé que si tous les e¤ectifs calculés sont su¢ samment grands :

2.1.2 Comparaison d’un pourcentage observé a un pour- centage théorique :

On extrait au hasard dans une population un échantillon de taille n , soit p le pourcentage du caractèreA le problème qui se pose alors est :

-La divergence constatée entre p et p0 peut-elle être expliquée uniquement par les ‡uctuation d’échantionnage ou bien les résultats expérimentaux sont-ils en contradiction avec les valeurs théoriques p0 :

Si n est assez grand etp0 est très approche a0ou1 (np= 05)la comparaison entrep etp0 calculée ( théorique ) est basée sur l’écart-réduit :

obs = jppp0pq00j

n

: Au seuil de signi…cation .

*Si obs la di¤érence n’est pas signi…cative.

*Si obs > la di¤érence est signi…cative.

Remarque : On peut traiter le problème de comparaison par le test du Khi-deux

Résultats Cancer Pas de cancer Totale

Proportion théorique 20% 80% 1

E¤ectif calculé 20 80 100

E¤ectif observé 34 66 100

(12)

Maintenant on peut utiliser la formule du l’écart-réduit suivante

2

obs = (O1 np1)2

np1 +(O2 np2)2

np2 = (34 20)2

20 + (66 80)2

80 = 12;25:

avecO1+O2 = 34 + 66 = 100;

de plus p = 0;20et q= 0;80:, k 1 = 2 1 = 1, tel que 2 = 3;841:

Alors il est clair que 2obs > 2:

2.1.3 Comparaison d’une moyenne observée a une moyenne calculée :

SoitXune variable aléatoire dont la moyennemet l’écart-type sont connus.

Soit n 30 ( le cas de grands échantillons). Nous avons déjà vu que X suit la loi normale :

X wN m; pobs n : La quantité T =X mobs

pn

suit la loi normale d’espérance 0 et l’écart-type 1.

Pour un taux de risque de 05% on a :

Si jT j<1;96 : alors l’écart n’est pas signi…catif.

Remarque : Si est inconnue on utilise l’estimation par echantillonp

n 1 :

2.2 Test de homogénéité :

Les tests d’homogénéité ou d’égalité destinés à comparer deux populations à l’aide d’un nombre équivalent d’échantillons sont les plus couramment utili- sés. Dans ce cas la loi théorique du paramètre étudié (par exemplep; m; s2) est inconnue au niveau des populations étudiées.

Position de problème :

Soient deux échantillons pris dans deux endroits di¤érents. Peut-on considé- rer que ces deux échantillons proviennent de la même population ou de deux population di¤érentes.

Le principe de la comparaison consiste à estimer qu’il n’y a pas de di¤érence signi…cative entre les deux populations dont sont issus ces deux échantillons(H0)

Alors d’après le résultat du test :

(13)

-SiH0 doit être rejetée, cela signi…e que les deux populations sont di¤érentes.

-Si au contraire H0 doit être accepter, il y a deux explications possibles.

1/ Les deux populations sont réellement di¤érentes, mais la taille des échan- tillons est insu¢ sante pour pouvoir mettre cette di¤érence en évidence.

2/ Les deux populations sont e¤ectivement semblables pour le caractère étu- dié.

2.2.1 Comparaison des moyennes.

Etant donnés deux échantillons des tailles respectivementn1etn2de moyenne respectivement X1 = n1

1

Pn1

1 X11 et X2 = n1

2

Pn2

1 X12: Le problème consiste a comparer les moyennes de ces deux échantillons.

Doit-on attribuer au hasard la di¤érence D = X1 X2 des moyennes des deux échantillons, ou au contraire doit-on la considérer comme signi…cation.

Pour cela on étudie d’abord l’intersection des intervalles de con…ance pour m1 et pour m2 :

Le cas des grands échantillons : m1 2 X1 u p 1

n1 1; X1+u p 1 n1 1 ; m2 2 X2 u p 2

n2 1; X2+u p 2 n2 1 : Le cas des petits échantillons :

m1 2 X1 t p 1

n1 1; X1+t p 1 n1 1 ; m2 2 X2 t p 2

n2 1; X2+t p 2 n2 1 :

Avec t valeur lue sur la table de Student de (n 1)degré de liberté.

Alors ces trois cas peuvent se présenter :

1) Ic(m1)\Ic(m2) = : Dans ce cas on conclure qu’il y a une di¤érence signi…cative entre les deux moyennes.

2) Ic(m1)\Ic(m2) 6= ; avec X1 2 Ic(m2) et X2 2 Ic(m1) : Dans ce cas on peut conclure que la di¤érence entre les moyennes des deux populations n’est pas signi…cative au taux de risque considéré.

(14)

3) Ic(m1)\Ic(m2) 6= ; avec X1 2= Ic(m2) et X2 2= Ic(m1) : Dans ce cas pour pouvoir conclure si les moyennes des deux populations sont sembles ou non, on procède au test de comparaison de moyennes ( Test de l’écart-réduit).

Test de comparaison des moyennes :

Le cas des grands échantillons n1 et n2 30 :

1/ Si H0 = ( Les deux échantillon proviennent d’une même population).

Si H1 = ( Les deux échantillon ne proviennent pas d’une même population c’est à dire quem1 6=m2).

2/ On calcule :

= X1 X2 q 2

1

n1 +n22

2

: 3/ Conclusion : Au seuil de sécurité 95%

" >1;96( pratiquement 02) alors on rejette H0.

" <1;96( pratiquement 02) alors on rejette H1. Solution :

Le cas des petits échantillons n1 et n2<30 : On pose l’hypothèse nulle :

H0= ( Les deux échantillons proviennent d’une même population)

On montre qu’une bonne estimation de 2est fournie par la quantité suivante appelée la variance commune :

S2 = Pn1

1 Xi X1 2+Pn2

1 Xi X2 2 n1+n2 2

= n1 21+n2 22 n1+n2 2:

Au lieu de l’expression de l’écart-réduit on utilise le critère de Student D= X1 X2

Sq

1 n1 +n1

2

:

Conclusion : On compareD avec t de d,d,l(n1+n2 2):

1/Si D< t : La di¤érence entre les deux échantillons n’est pas signi…cative.

2/Si D > t : Les deux échantillons n’appartiennent pas à la même popula- tion.

Exemple :

(15)

Dans des études d’anesthésie, voulant comparer l’e¤et de deux somnifères, on a noté les durées de sommeil qui ont suivi les injections d’une dose bien dé…nie.

Les durées étant exprimées en minutes :

Somnifère 01 170 175 187 180 190 165 175 174 173 181

Somnifère 02 155 160 164 150 160 159 154 156 160 167 153 158 Que peut-on dire pour cette comparaison ?

Solution :

Indication des calculs :

X1 = 177; et X2 = 158; de plus n1; n2 < 30: Alors la variance commune S2 =

Pn1

1 (Xi X1)2+Pn12(Xi X2)2

n1+n2 2 = 38;4: Au lieu de l’expression de l’écart-réduit on utilise le critère de Student

D= X1 X2

Sq

1 n1 +n1

2

= j177 158j p38;4

q1 10 +121

= 7;2:

Conclusion : On compare D avec t0;05 de d,d,l (10 + 12 2) = 2;09, donc il est évident que D > t : d’où les deux échantillons n’appartiennent pas à la même population, On peut conclure que les deux somnifères ont des e¤ets réellement di¤érents ; le premier provoquant des sommeils de plus longue durée que le deuxième.

(16)

Analyse de la variance

3.1 Analyse de la variance à un facteur

Dans le cadre des tests d’hypothèses, nous avons émis des hypothèses concer- nant la moyenne d’une population (test de conformité) puis comparé les moyennes de deux populations (test d’homogénéité). Ce chapitre a trait à la comparaison des moyennes de plusieurs populations(>2). L’analyse de variance peut être vue comme une comparaison multiple de moyennes. Dans tous les cas, la variable étu- diée est un caractère quantitatif de type continu qui suit une loi normale. Il existe di¤érents types d’analyse de variance qui se distinguent par le nombre de fac- teurs étudiés (un facteur, deux facteurs, deux facteurs avec répétitions, etc), la nature du facteur (caractère qualitatif ou quantitatif) et la nature des modalités associées au facteur (modèle …xe, modèle aléatoire, modèle mixte).

Nous ne traiterons que le cas de l’analyse de variance à un facteur contrôlé (modèle …xe). Les di¤érentes modalités du facteur correspondent aux di¤érentes modalités d’un caractère qualitatif. Ces modalités sont déterminées par l’expé- rimentateur.

3.1.1 Structure des données

Les données relatives à une analyse de variance à un facteur contrôlé sont :

9

(17)

Modalité 1 Modalité 2 ... Modalité i... Modalité p

x11 x12 ... x1i x1p

x21 x22 ... x2i x2p

... ... ... ... ...

xn11 xn22 ... xnii xnpp

x:1 x:2 ... x:i x:p

Notation :

Le facteur contrôlé A présente p modalités (1 i p). On parle aussi de niveaux ou traitements. Le nombre de répétitions j pour une modalité i est notée ni. Le nombre de répétitions pour chaque modalité du facteur n’est pas forcément le même. La valeur prise par la variable aléatoireX pour la modalité i du facteur et la répétition j est notée xij et la valeur moyenne pour chaque modalité notéexij:

3.1.2 Conditions d’application de l’analyse

Indépendance

L’indépendance entre les di¤érentes valeurs de la variable mesuréexij est une condition essentielle à la réalisation de l’analyse de variance.

Les péchantillons comparés sont indépendants.

Normalité

La variable quantitative étudiée suit une loi normale dans les p populations comparées. La variable aléatoire étudiée X dontxij est une représentation, suit une loi normale N( i; ) sousH1.

En d’autre termes les échantillons suivant une loi normale peuvent faire l’ob- jet d’une analyse de variance paramétrique. Pour véri…er que la distribution d’un échantillon suit une loi normale, il est possible d’utiliser, dans XL Stat 2009, le test descriptif d’aplatissement et d’asymétrie (de kurtosis and skewness, en an- glais).

On considère que l’échantillon suit une loi normale à 95 % lorsque la valeur de son aplatissement est compris entre -2 et +2.

Homoscédasticité

Lesppopulations comparées ont même variance. Le facteurAagit seulement sur la moyenne de la variableX et ne change pas sa variance.

(18)

Di¤érents tests permettent de véri…er l’égalité des variances relatives aux p populations. On calcule les di¤érentes variances pour chacun des échantillons à comparer, et on fait le rapport de la plus grande sur la plus petite, ce rapport estF.

Cette valeur est comparée, dans une table de Hartley (ou du Fmax), à une valeur théorique et doit lui être inférieure pour un seuil de risque choisi (par exemple, 95 %) pour conserver l’hypothèse d’homogénéité des variances.

Les d.d.l. sont, pour la colonne de la table du Fmax, le nombre de traitements (=k) (colonnes de données), et pour la ligne de la table, le nombre de données du plus grand échantillon - 1 (=n-1).

3.1.3 Modèle de l’analyse de variance

Modèle sous H0 : homogénéité des données

L’analyse de variance à un facteur teste l’e¤et d’un facteur contrôlé Aayant p modalités sur les moyennes d’une variable quantitative X. L’hypothèse nulle testée est la suivante :

"Il n’y a pas d’e¤et du facteur A sur les di¤érentes modalités, et les p moyennes sont égales à une même moyenne ".

H0 : 1 = 2 = 3 =:::= i =::: p:

Modèle sous H1 : Hétérogénéité des données. L’hypothèse alternative est la suivante : "Il y a un e¤et du facteur A et il existe au moins deux moyennes signi…cativement di¤érentes."

H1 :9i6=j tel que i 6= j:

Ainsi il existe une di¤érence entre les moyennes de la variable selon les mo- dalités du facteur contrôlé.

3.2 Equation fondamentale de l’analyse de va- riance

Notation :

SCEtotale = Somme des écarts totaux ou variation totale.

(19)

SCEinter = Somme des écarts liés aux e¤ets du facteur A ou variation inter (entre modalités).

SCEintra = Somme des écarts résiduels ou variation intra (interne à chaque modalité).

3.2.1 Pratique de l’analyse de variance

Principe du test

Soit l’équation de décomposition de la variation totale Xj=p

j=1 i=nXj

i=1

(xij x::)2 = Xj=p

j=1

nj(x:j x::)2+ Xj=p

j=1 i=nXj

i=1

(xij x:j)2; Xj=p

j=1 i=nj

X

i=1

x2ij N(x::)2 = Xj=p

j=1

njx2:j N x2::

! +

Xj=p j=1

i=nj

X

i=1

x2ij Xj=p

j=1

njx2:j Alors il est facile de voir que

SCEtotale=SCEinter +SCEintra

L’estimation des variances associées ou carré moyen sont : Variance Totale (CMT) = SCET

N 1, avec N = Xn

1

nj:

Variance due au facteurA (CMinter) = SCEinter p 1 : Variance résiduelle (CMR) = (CMintra) = SCEintra N p :

Remarque :L’équation fondamentale de l’analyse de variance ne s’applique pas aux variances : Variance totale6= Variance inter + Variance intra.

(20)

3.2.2 Application et tableau de variation

Le tableau de variation donne un résumé des calculs e¤ectués pour l’analyse de variance.

Sources Degrés Somme des Carré Moyen Test de

de variation de liberté Carrés des Ecarts Fisher-Snédécor

Totale N 1 SCET

Facteur p 1 SCEinter CM inter= SCEinter

p 1 Fobs = CM inter CM intra

Résiduelle N p SCEintra CM intra= SCEintra

N p

Pour e¤ectuer les calculs, des formules développées peuvent être utilisées.

CM inter= SCEinter

p 1 =Variance des moyennes CM intra= SCEintra

N p =La moyenne des variances.

Comparaison à la table

Une table pour chaque taux de risque donné en cours : 5% et 1%

Lire la valeur F1 (p 1; n p) de la ligne(n p) et la colonne (p 1) de la table choisie

*SiFobs > F1 (p 1; n k)alors l’hypothèse nulle est rejetée, sinon elle est retenue.

3.3 Analyse de la variance à deux facteurs

3.3.1 Echantillons de plusieurs observations (de taille n)

Ce plan est appliqué lorsqu’on dispose de plusieurs mesures pour chaque combinaison des niveaux des deux facteurs. Le béné…ce est qu’on peut tester l’interaction entre les deux facteurs. L’interaction dans le sens de l’ANOVA, elle, mesure l’in‡uence que l’état d’un des facteurs a sur l’e¤et exercé par l’autre facteur sur la variable dépendante. En d’autres mots, il y a interaction lorsque l’e¤et des di¤érents niveaux d’un facteur change selon le niveau de l’autre facteur.

Structure des données

Les données relatives à une analyse de variance à deux facteurs contrôlé avec

(21)

répétitions de même nombre, sont structurées dans un tableau du type suivant :

Modalité 1 Modalité 2 Modalité 3 Moy Mar

Modalité 1 x111; :::; x11n x121; :::; x12n x131; :::; x13n

Moyenne C11 =x11 Moyenne C12 =x12 Moyenne C13 =x13 x1:

Modalité 2 x211; :::; x21n x221; :::; x22n x231; :::; x23n

Moyenne C21 =x21 Moyenne C22 =x21 Moyenne C23 =x21 x2:

Modalité 3 x311; ::::; x31n x311; ::::; x32n x311; ::::; x33n

Moyenne C31 =x31 Moyenne C32 =x31 Moyenne C33 =x31 x3:

Modalité p xp11; ::::; xp1n xp11; ::::; xp2n xp11; ::::; xp3n

Moyenne Cp1 = xp1 Moyenne Cp2 =xp1 Moyenne Cp3 =xp1 xp:

Moyenne Marginal x:1 x:2 x:3 x:::

La décomposition des SCE

Soit l’équation de décomposition de la variation totale : SCET =SCEA+SCEB+SCEAB+SCER:

Calcul des SCE

SCET = Xp

i=1

Xq j=1

Xn k=1

(xijk x:::)2 = Xp

i=1

Xq j=1

Xn k=1

x2ijk npqx2:::

SCER = Xp

i=1

Xq j=1

Xn k=1

(xijk xij)2 = Xp

i=1

Xq j=1

Xn k=1

x2ijk n Xp

i=1

Xq j=1

x2ij

SCEA = qn Xp

i=1

(xi: x:::)2 =qn Xp

i=1

x2i: npqx2:::

SCEB = pn Xq

j=1

(x:j x:::)2 =pn Xq

j=1

x2:j npqx2:::

SCEAB = n Xp

i=1

Xq j=1

(xij xi: x:j+x:::)2 =SCET SCER SCEA SCEB Hypothèses

Il y a maintenant trois hypothèses principales à tester : H0 : le facteur A n’a aucun e¤et sur les résultats, c’est-à-dire

H0 : 1 = 2 = 3 =:::= i avec i= 1;p

(22)

H00 :le facteur B n’a aucun e¤et sur les résultats, c’est-à-dire H00 : 1 = 2 = 3 =:::= j avec j = 1;q H"0 : les facteurs A et B n’interagissent pas sur les résultats.

Hypothèses contraires :

H1 : le facteur A a un e¤et sur les résultats, c’est-à-dire qu’au moins une des moyennes i.. n’est pas égale aux autres ;

H10 : le facteur B a un e¤et sur les résultats, c’est-à-dire qu’au moins une des moyennes j. n’est pas égale aux autres.

H"1 : les facteurs A et B interagissent sur les résultats. Autrement dit, l’état du facteur A in‡uence la réponse face au facteur B, et réciproquement.

Scherrer montre comment décomposer la variance totale des résultats en : - variance "cellulaire" (c’est-à-dire la variance due à la variabilité au sein des "cellules" du tableau contenant chacune les t répétitions d’une combinaison donnée de niveaux des facteurs A et B)(SCEC(pq 1);

- variance due au facteur A (SCEA(p 1)) ; - variance due au facteur B(SCEB(q 1)) ;

- variance due à l’interaction AB ([(pSCEAB1)(q 1)]) ; - variance résiduelle ([pq(nSCER1)]).

Lorsque les populations sont normales, les échantillons indépendants et les hypothèses principales vraies, les variances dues au facteur A, au facteur B, à l’interaction et résiduelle sont quatre estimations de la variance s2 de la même population.

Par conséquent, chaque hypothèse H0 peut être testée à l’aide d’un test de Fisher comparant les variances dues à chacun des facteurs à la

variance des résidus :

FAobs = CMA CMR FBobs = CMB CMR FABobs = CMAB

CMR

LorsqueH0 est vraie et que les conditions d’application du test sont remplies, les trois variables auxiliaires FA, FB et FAB sont distribuées respectivement comme les F de Fisher suivants :

(23)

F(p 1);[pq(n 1)]; F(q 1);[pq(n 1)] et F(p 1)(q 1);[pq(n 1)]

Remarque :

1) Il faut remarquer ici que, contrairement au cas de l’ANOVA à un critère de classi…cation, cette procédure n’est valide que dans le cas d’une ANOVA de modèle I, c’est-à-dire lorsque les deux facteurs sont contrôlés. Dans le cas d’ANOVA de modèle II (deux facteurs aléatoires) ou III (mixte : un facteur contrôlé et un aléatoire), les statistiques F et leurs degrés de liberté peuvent être di¤érents.

2) Il est impératif de tester en premier l’e¤et de l’interaction, les tests des e¤ets principaux de A et B ne pouvant être interprétés que si cette interaction est non signi…cative.

3.4 Echantillons d’une seule observation

Tableau des données

Les données relatives à une analyse de variance à deux facteurs contrôlés sans répétitions, sont structurées dans un tableau du type suivant :

Modalité 1 Modalité 2 Modalité 3 Moy Mar

Modalité 1 Moyenne C11 =x11 Moyenne C12 =x12 Moyenne C13 =x13 x1:

Modalité 2 Moyenne C21 =x21 Moyenne C22 =x21 Moyenne C23 =x21 x2:

Modalité 3 Moyenne C31 =x31 Moyenne C32 =x31 Moyenne C33 =x31 x3:

Modalité p Moyenne Cp1 = xp1 Moyenne Cp2 =xp1 Moyenne Cp3 =xp1 xp:

Moyenne Marginal x:1 x:2 x:3 x:::

La décomposition des SCE

Soit l’équation de décomposition de la variation totale : SCET =SCEA+SCEB+SCEAB:

Calcul des SCE

Mêmes formules en remplaçant n par 1.

(24)

Le tableau de variation donne un résumé des calculs e¤ectués pour l’analyse de variance.

Sources Degrés Sommes des Carrée Moyen Test de

des Variations de Liberté carrées des écarts Fisher-Snédecor

Totale N 1 SCET (CMT) = SCEN 1T

Facteur A p 1 SCE A (CMA) = SCEp 1Ar FobsA = CMA

CMAB

Facteur B q 1 SCE B (CMB) = SCEq 1Br FobsB = CMB

CMAB Facteur AB (p 1) (q 1) SCE Intra (CMAB) = (pSCE1)(qAB1)

:

(25)

La régression linéaire simple

Soit une distribution à deux variables quantitatives. La régression linéaire simple permet de chercher l’éventuelle relation fonctionnelle linéaire qui existerait entre une valeur EXPLICATIVE (ou indépendante) x et une variable aléatoire À EXPLIQUER (ou dépendante)y,xest remplacé parts’il s’agit d’une mesure du temps.

Graphiquement, on représente cette éventuelle relation dans un plan muni d’un repère orthogonal. L’axe des abscisses indique la variable qui explique et l’axe des ordonnées celle que l’on cherche à expliquer. L’ensemble des données

…gure sous forme de nuage de points (autant de points que d’observations dif- férentes). Si les données sont disponibles en fourchettes de valeurs, on remplace ces dernières par les valeurs centrales des classes.

Une relation linéaire déterministe entre les deux variables se traduit par des points parfaitement alignés. En mathématiques, on dit que la droite qui les relie représente une fonction a¢ ne (en statistiques, on emploie un peu abusivement le terme LINÉAIRE plutôt qu’AFFINE). Toutefois, on ne trouve jamais de relation parfaite en utilisant des données brutes, sauf à véri…er une dé…nition (auquel cas on parle de modèle déterministe). La relation est donc stochastique, c’est-à-dire qu’elle comporte une part d’aléas.

La régression linéaire simple cherche à modéliser cette relation par une équa- tion et l’analyse de corrélation vise à en évaluer la qualité.

Ce type d’analyse peut d’ailleurs être utilisé pour des relations non linéaires mais transformables en fonctions a¢ nes à condition d’utiliser des variables auxi- liaires (voir régression simple sur tendance exponentielle). En pratique, il est toutefois rare de passer par là puisque n’importe quel logiciel réalise des régres-

18

(26)

sions non linéaires.

On cherche à approximer une liaison inconnue Y = f(X) par une relation linéaire suivante

Yi = Xi+ + i; où i= 1; n;

i étant une va riable aléatoire normale, la variable Y est la variable aléatoire expliquer, de plus E( i) = 0; etV ar( i) = 2:

4.1 Estimation des paramètres et :

Le modèle d’estimation est celui des moindres carrés ordinaires ( MCO ) et consiste à trouver les estimateurs b et b de et ( resp) qui minimisent la somme des carrés des erreurs suivante :

Q= Xn

1 2 i =

Xn 1

(yi xi )2:

La résolution de minQ conduit à donner les deux estimateurs pour et qui sont :

b = Pn

1 (xi x) (yi y) Pn

1 (xi x)2 ; b = yn xn:

Remarque : En désignant parSX2 = 1nPn

1 (xi x)2 etSY2 = n1Pn

1 (yi y)2 les variances empiriques de (x1; x2; x3; :::; xn) et (y1; y2; y3; :::; yn) et par le coe¢ cient de corrélation linéaire empirique entreX et Y donné par :

= Pn

1(xi x) (yi y)

nSX2SY2 = SXY SX2SY2 ; on a b = SY

SX

:

4.1.1 La droite de régression

Nous observons un nuage de forme plus ou moins rectiligne. Comment trouver l’équation de la droite qui le résume au mieux ? En minimisant les distances qui la séparent des points. Quelles distances ? Généralement les carrés des distances euclidiennes parce que l’utilisation des valeurs absolues nous bloquerait dans une

(27)

impasse mathématique un peu longue à expliquer (mais certains logiciels per- mettent de réaliser ce type de régression). D’où l’expression droite des moindres carrés. Graphiquement, il s’agit des distances VERTICALES, parallèles à l’axe y, la distance entre le modèle théorique et la réalité.

4.2 La qualité de l’ajustement :

On appelle : b

yi = bxi+b : La valeur ajustée deyi:

y=bx+b: La droite de régression linéaire de y ajustée enx:

bi =yi byi :Le résidu en i:

VE = 1 n

Xn 1

(byi yn)2 : La variance expliquée par le modèle.

VR= 1 n

Xn 1

b2i : La variance résiduelle.

On montre que : VT = 1

n Xn

1

(yi y)2 =VE +VR: L’équation d’analyse de la variance.

La qualité du modèle est jugée par le coe¢ cient de détermination de la ré- gressionR2 :

R2 = VE

VT = (b)2Pn

1(xi x)2 Pn

1 (yi y)2

= 1

Pn 1b2i Pn

1 (yi y)2 = 2:

4.2.1 Interprétation

Si le coe¢ cient de corrélation est su¢ samment élevé, le modèle peut-être uti- lisé pour des applications prédictives ou prévisionnelles. On remplace alors l’in- connue x dans l’équation de la droite et l’on obtient une estimation de l’ordonnée qui lui correspond. En général, on procède à une extrapolation : graphiquement, on prolonge la droite.

(28)

Toutefois, le modèle peut être meilleur si l’équation d’une courbe remplace celle de la droite (lorsque le nuage de points présente une forme de banane), ou en ajoutant une deuxième variable explicative. Outre la connaissance « métier

» du sujet, c’est l’observation des résidus qui doit mettre la puce à l’oreille (voir hypothèses de validité de la régression linéaire).

4.3 Propriétés Statistiques de b et b :

Les estimateurs b etb sont sans biais, alors on peut calculer leurs espérance et la variance comme suit :

E(b) = : E b = : V ar b = 2 1

n + (x)2 Pn

1(xi x)2

! : V ar(b) =

2

Pn

1 (xi x)2: Un estimateur sans biais de 2 c’est :

S2 = Pn

1b2i n 2:

4.4 Intervalle de con…ance pour :

En utilisant les techniques des statistiques, on peut établir l’intervalle de con…ance suivant :

P 0

@b ta S qPn

1 (xi x)2

< <b+ta S qPn

1(xi x)2 1

A= 1 a;

où ta est la fractile d’ordre 1 a2 pour la loi de Student a(n 2) DDL.

4.5 Test de Student

On veut tester l’hypothèse nulle suivante H0 : (b= 0) contre l’hypothèse alternative suivante H1 : (b 6= 0); pour cela on doit utiliser la loi de Student

(29)

pour aboutir la formule d’estimation qui reste vraie et acceptable pour tout valeurta est la fractile d’ordre 1 a2 pour la loi de Student à (n 2)DDL :

T = jb 0j pPnS

1(xi x)2

< ta Exemple N :01

On a étudié les longueurs respectives des 2 (deux) paires d’ailes d’une espèce de guêpe ( Vespa sp) sur un échantillon de 11 individus. SoitXla longueur d’une aile de la première paire et Y celle de l’aile de la deuxième paire mesurée sur le même individu. On a obtenu les résultats suivants :

L’individu La longueur d’une aile de la première paire La longueur d’une aile de la deuxième paire

I 294 624

II 271 661

III 314 728

IV 356 782

V 383 819

V I 369 869

V II 402 938

V III 422 1023

IX 475 1136

X 475 1227

XI 486 1317

On veut tester la réalité d’une relation linéaire entreY et X, soit : Y = + X+ :

Les hypothèses classiques de modèle linéaire simple sont supposées réalisées, c’est-à-dire que est une variable aléatoire suivant la loi normale centrée.

1/ Donner les estimations b et b de et obtenues par la méthode des moindres carrés ordinaires MCO.

2/ Calculer l’estimateur de la variance, l’estimateur de la variance de l’esti- mateur b, et le coe¢ cient de détermination de la régressionR2:

3/ On se pose le problème de test :

( H0 :b = 0;

H1 :b 6= 0:

(30)

A quelle question ce test répond t-il ? Peut-on dire que est signi…cativement di¤érent de zéro, au risque0;05?

La réponse : P11

1 xi = 10124 P11

1 yi2 = 9850614;000 P11

1 xiyi = 4075178 P11

1 yi = 4247 x= 386;091 Pn

1 (xi x)2 = 55464;137 P11

1 x2i = 1695193;000 y= 920;364 Pn

1 (yi y)2 = 532845;183 1/ Les estimateurs b et b de et :

b =

Pxiyi n(x) (y)

Px2i n(x)2 = 3;000:

b=yn xn = 237;909 L’estimateur S2 de 2 :

S2 =b2 = Pn

1b2i n 2 =

Pn

1 (yi y)2 (b)2Pn

1(xi x)2

n 2 = 3740;883:

Alors S= 19;98: Donc :

V ar(b) = S2 Pn

1(xi x)2 = 0;067:

Coe¢ cient de détermination de la régression R2 : R2 = 2 = 1

Pn 1b2i Pn

1 (yi y)2

= 1 = 0;93:

Test de Student :

On pose le problème de test suivant

( H0 :b = 0;

H1 :b 6= 0:

pour cela on doit utiliser la loi de Student pour aboutir la formule d’esti- mation qui reste vraie et acceptable pour tout valeur ta est la fractile d’ordre

1 a2 pour la loi de Student a(n 2)DDL : T = jb 0j

pPnS

1(xi x)2

= j0;312j

19;98

pPn 1(xi x)2

= 11;39> ta=tn 2

(1 2) = 2;262:

(31)

Le coe¢ cient b est très signi…cativement di¤érent de 0.

Exemple N :02

Pour véri…er les relations d’halométrie entre insectes, on a retenu les deux relations x La longueur de l’élytre y La largeur de la tête. Les mesures sur 50 insectes, notées (xi;yi) ont fourni les résultats suivants :

X50 1

xi = 155;

X50 1

yi = 125;

X50 1

xiyi = 391;1:

X50 1

x2i = 482;5;

X50 1

yi2 = 320;5;

X50 1

x2iyi2 = 3468;7:

1/ Calculer :

a/ La moyenne et l’écart-type du caractère x sur l’échantillon observée.

b/ La moyenne et l’écart-type du caractèrey sur l’échantillon observée.

c/ La covariance empirique et la corrélation empirique des variables xet y.

d/ L’équation de la droite de régression linéaire deysurxobtenue par estimation sur ces données.

2/ Donner un estimateur de la variance pour l’estimateur du coe¢ cient.

3/ Déterminer l’intervalle de con…ance pour le coe¢ cientbau taux de con…ance 95%.

La réponse : Pour n= 50:

1/ a) et b) Calcul des moyennes :

x= 1 n

X50 1

xi = 1

50:155 = 3;1:

y= 1 n

X50 1

yi = 1

50:125 = 2;5:

Calcul des variances :

X =p

V arX = vu ut1

n Xn

1

(xi x)2 = vu ut1

n X50

1

x2i (x)2 = 0;2:

(32)

Y =p

V arY = vu ut1

n Xn

1

(yi y)2 = vu ut1

n X50

1

y2i (y)2 = 0;4:

c) La covariance :

SXY = Cov(X; Y) = 1 n

X50 1

xiyi (x) (y)

= 1

50391;1 (3;1) (2;5) = 0;072:

et le coe¢ cient de corrélation :

= SXY

SXSY = 0;072

0;2 0;4 = 0;9:

d) Les estimateurs des coe¢ cients : b= SY

SX = 0;90;4

0;2 = 1;8:

b=yn xn= 3;081:

Alors la droite de la régression linéaire obtenue par la méthode des moindre carré ordinaire est la suivante

y= 1;8x 3;081

2/ L’estimateur de la variance pour l’estimateur du coe¢ cient b : on a la variance de l’estimateur b est donnée par

V ar(b) =

2

Pn

1 (xi x)2: Donc :

V ar\(b) = S2 Pn

1 (xi x)2 =

Pn 1b2i n 2

Pn

1(xi x)2 =

Pn

1(yi y)2 (b)2Pn 1(xi x)2 n 2

Pn

1 (xi x)2 = 0;015:

(33)

Exercices sur Tests des hypothèses

Exercice N :01

Prenons un dosage biologique, qui peut être normale, faible ou fort selon qu’il se situe entre deux bornes, est inferieur à la plus petite, ou supérieur à la plus grande, a K = 3 modalités. On veut tester le fait que 90% des gens ont un dosage normal. alors que 5% l’ont faible et 5% l’ont fort. Pour cela, on tire au hasard 100 sujets et on constate que, sur les 100 dosages 76 sont normaux, 10 faibles et 14 forts. Quelle sera la conclusion ?

Exemple N :02

On a croisé deux races de plantes di¤érentes par deux caractères Aet B. La première génération est homogène, la seconde génération fait apparaître4 types de plantes, dont les phénotypes sont notés AB, Ab,aB, etab.

Si les caractères se transmettent selon les lois de Mendel, les proportions théoriques des 4phénotypes sont 9=16, 3=16, 3=16 et1=16.

Dans une expérience, un échantillon de 160 plantes a donné :

AB Ab aB ab

100 18 24 18

Cette répartition est-elle conforme aux lois de Mendel au seuil de signi…cation de5%?

Exemple N :03

26

(34)

Les résultats des épreuves d’un examen à l’échelle nationale sont : 60% de reçus, 25% admissibles (admis à passer les épreuves orales) et 15% éliminés.

Un établissement présente 160 élèves et obtient 75 reçus, 53 admissibles et 32élimines.

Y a t-il conformité entre ces résultats et ceux valables à l’échelle nationale ?(

= 0; 01).

Exemple N :04

Dans une population qui comporte autant de garçons que de …lles, une ma- ladie a frappé 08…lles et 02garçons.

Cette maladie frappe t-elle davantage les …lles ? Exemple N :05

Une race de souris présente des tumeurs spontanées avec un taux parfaitement connu, soit p = 20%. Dans une expérience portant sur 100 souris, soumises à un certain traitement, on observe 34 cancers. On demande maintenant si la di¤érence entre p0 et p est signi…cative.

Exemple N :06

On a prélevé un échantillon de100paquets de tabac dans la production d’une machine à paqueter. La mesure du poids de ces paquets a donné une moyenne de 36 g. On demande si la moyenne observée est compatible avec l’hypothèse que la machine fabrique « en moyenne » des paquets de 40 g avec un écart-type de 18g au risque de 5%.

Exercice N :07

Partant de races pures, un sélectionneur a croisé des mu‡iers ivoires avec des mu‡iers rouges. Il a obtenu en F1 des mu‡iers pâles puis en F2 ; après autofécondation des plantes de la génération F1 : 22 mu‡iers rouges, 52 mu‡iers pâles, et 23 mu‡iers ivoires.

La couleur des ‡eurs est-elle gérée par un couple d’allèles ? Exercice N :08

Pour mettre en évidence l’e¤et éventuel de l’absorption d’un médicament sur le rythme cardiaque, on forme deux groupes, de 100 sujets chacun, par tirage au sort parmi les malades traités par ce médicament :

Au premier groupe, on n’administre pas le médicament, mais un placebo ; Au deuxième groupe on administre le médicament. Les moyennes et variances

(35)

estimées sur chacun des groupes sont :

my = 80 s2y = 5 Pour le rythme cardiaqueY du groupe témoin;

my0 = 81 s2y0 = 3 Pour le rythme cardiaqueY0 du groupe traité.

Faire le test bilatéral de H0 (EY =EY0) contre H1 (EY 6=EY0) :avec un degré de signi…cation 1%.

Exemple N :09

Un chercheur a fait l’étude sur deux échantillons de souris qu’il a capturé en deux endroits di¤érents. Il a obtenu les résultats suivants :

Echantillon 01 Echantillon 02 n1 = 50 n2 = 50

x1 = 51g x2 = 45g

2

ech1 = 256 2ech2 = 144

Ces souris peuvent-elles appartenir à la même population au seuil de con…ance de95%?.

Exercice N :10

Une étude est réalisee en vue de comparer l’e¢ cacité de deux fertilisants sur la croissance des plantes. On mesure la hanteur de deux lots de plantes, chacun avec un fertilisant di¤érent. Bien sûr, nous avons cultivé la même espèce dans des conditions environnementales identiques ( ensoleillement, apports d’eau, température...). Les données relevées sont les suivantes :

Fertilisant I Fertilisant II

48,2 52,0 52,3 58,0

54,6 55,2 57,4 59,8

58,3 49,1 55,6 54,8

47,8 49,9 53,2

51,4 52,6 51,3

Nous désirons savoir s’il existe une di¤érence signi…cative entre les deux types de fertilisants, à un seuil de signi…cation de 1 %.

Exercice N :11

(36)

LepH (degré d’acidité) a été mesuré dans deux types de solutions chimiques A et B. Dans la solution A, six mesures ont été faites, avec un pH moyen de 7;52 et un écart-type estimé de0;024. Dans la solutionB, cinq mesures ont été faites, avec unpH moyen de7;49et un écart-type estimé de 0;032.

Déterminer si, au seuil de signi…cation de0;05, les deux solutions ont despH di¤érents.

Exercice N :12

On admet que la coloration de l’iris, chez l’homme, est déterminée par un couple d’allèles. La diversité des gènes complique l’étude de la transmission de ce caractère ; on sait cependant que la coloration bleue est récessive.

Le père de Monsieur Dupont et le père de Madame Dupont ont les yeux bleus.

Monsieur et Madame Dupont n’ont pas les yeux bleus ; étant hétérozygotes, s’ils attendent un enfant, la probabilité pour qu’il ait les yeux bleus est 1/4 . Sur cinq enfant, le nombre d’enfants aux yeux bleus qu’il peuvent avoir obéit à une loi binomiale B 5;14 :

On a classé selon le nombre d’enfants aux yeux bleus qu’elles contiennent 1024 familles de 5 enfants et dont les

parents ont le même génotype que Monsieur et Madame Dupont.

Soit Y le nombre d’enfants aux yeux bleus d’une telle famille.

On se propose de tester H0 :Y vB 5;14 contre H1 :Y B 5;14

Nombre d’enfants aux yeux bleus 0 1 2 3 4 5

Probabilité ( sousH0) 1024243 1024405 1024270 102490 102415 10241

E¤ectif théorique 243 405 270 90 15 1

Nombre observé de familles 252 410 265 87 10 0

Le tableau ci-dessus résume l’ensemble des résultats expérimentaux et théo- rique.

Répondre au question posée.

Exercice N :13

Un éleveur de poulets possède deux races de coqs génétiquement distinctes : A et B. A…n de savoir s’il est plus avantageux pour lui d’utiliser comme repro- ducteurs des coqs de l’une ou de l’autre race. Il sépare un lot de 72 poules en deux lots de36, accouple les36poules du premier lot avec le coq de la raceA et

(37)

les poules du second lot avec le coq de la race B. L’un des poulets né de chaque accouplement est pesé à l’âge de 8 semaines ( ce poulet est choisi par tirage au sort parmi ceux de la même couvée). Les résultats observées sont données dans le tableau ci-dessous :

Coq de la race A Coq de la race B

Nombre de poulets... 36 36

Somme des poids des poulets(Gramme) 27 720 25 200

Variance observé des poids des poulets(Gramme)2 1 880 2 120 Pour savoir s’il existe une di¤érence entre les résultats obtenus avec les deux coqs, on est conduit à mettre en œuvre un test d’hypothèse :

1/ Préciser les hypothèses en présence ( hypothèse nulle, hypothèse alterna- tive) l’écart utilisé pour faire le test et se distribution pour hypothèse nulle.

2/ Montrer que la di¤érence des résultats obtenus avec les deux coqs est signi…cative.

Exercice N :14

Onze volontaires ont accepté de suivre un traitement qui peut éventuellement modi…er la viscosité sanguine. Les résultats avant et après traitement sont les suivants :

Individu Valeur avant traitement Valeur après traitement

1 2,40 2,45

2 2,60 2,55

3 2,55 2,55

4 2,85 2,40

5 3,15 2,85

6 3,15 2,90

7 2,15 2,00

8 2,70 2,40

9 2,75 2,60

10 2,45 2,40

11 2,65 2,30

Les viscosités avant et après traitement di¤èrent-elles statistiquement ? Le traitement a-t’il eu un e¤et ? (On …xe le risque à 5 %).

(38)

Exercice N :15

Soit le croissement de deux souches de drosophiles di¤érentes par trois carac- tères (a; b; c). On montre, en génétique mendélienne que si ces trois caractères sont portés par trois paires de chromosomes di¤érentes et si l’on a "a+" domi- nant par rapport à "a" et "b+" dominant par rapport à "b" et "c+" dominant par rapport à "c" on obtient, en théorie, dans le cas général, les proportions indiquées dans le tableau ci-dessous.

En fait on a obtenu sur 383 drosophiles examinées les résultats reportés dans le tableau :

Phénotypes Proportions théoriques E¤ectifs observés

(a+; b+; c+) 27/64 142

(a+; b+; c) 9/64 74

(a+; b; c+) 9/64 49

(a; b+; c+) 9/64 43

(a; b+; c) 3/64 28

(a; b; c+) 3/64 24

(a+; b; c) 3/64 13

(a; b; c) 1/64 10

1 / Quel test choisit ?

2/ Quelle est l’objectif pour cette expérience ?.

3 / Calculer les e¤ectifs théoriques de drosophiles de chaque phénotype.

4 / Formuler les hypothèses H0 et H1. 5 / Interpréter les résultats du test . 6 / Quelle en est la conclusion ?

Exercice N :16 Masse de sachets de médicaments.

A…n de contrôler un lot de fabrication d’un médicament divisé en sachets, on a prélevé un échantillon aléatoire de 15 sachets que l’on a pesés. 1 / Comparer, au risque a = 5 % et a = 1 %, la masse moyenne du lot à la valeur donnée par la norme de fabrication : 1, 50 g :

— dans le cas où l’hypothèse alternative est :

" la masse moyenne du lot est di¤érente de 1, 50 g "

— dans le cas où l’hypothèse alternative est :

Références

Documents relatifs

Pour ses exp´ eriences, Mendel choisit le pois comestible et s’int´ eressa ` a sept ca- ract` eres dont la couleur (jaune ou verte) et la forme des graines (ronde ou rid´ ee)..

Nous obtenons une repr´ esentation asymptotique de notre statistique de test se rap- prochant de celle obtenue sous des hypothses plus restrictives par Lopez et Patilea (2009)

Dans la littérature, les deux méthodes les plus connues pour estimer les paramètres d’un processus gamma (maximum de vraisemblance et méthode des moments) ont été dis- cutées

Des mod`eles de r´egression pour variables explicatives fonctionnelles ont ´et´e propos´es, notamment lorsque la r´eponse est un scalaire : le mod`ele lin´eaire est introduit dans

sont les symptômes les plus susceptibles de fluctuer sur une courte période de temps , seulement ceux-ci ont été évalués dans le cadre de la présente thèse,

Comme sur les données simulées de la section 3.6.2, la procédure avec 5 000 itérations donne des résultats proches de ceux renvoyés lorsqu’un critère d’arrêt est utilisé,

e Lorsqu’un cercle a plus d’un point ancêtre dans un cercle antérieur représentant un type de descendance, ces points représentent, soit la même plante, soit

(ainsi, la taille des échantillons sera prise en compte).. On va définir des variables aléatoires associées: a1, a2, a3=nb d ’ éléments du caractère étudié dans chacun des