• Aucun résultat trouvé

Chapitre 13 : Probabilité Partie 5 : Adéquation de données à une loi équirépartie

N/A
N/A
Protected

Academic year: 2022

Partager "Chapitre 13 : Probabilité Partie 5 : Adéquation de données à une loi équirépartie"

Copied!
5
0
0

Texte intégral

(1)

Chapitre 13: Probabilités : Partie 5 : Adéquation de données à une loi équirépartie Page 1 sur 5

Terminale S. – Lycée Desfontaines – Melle

Chapitre 13 : Probabilité

Partie 5 : Adéquation de données à une loi équirépartie

I. Rappels sur Médiane, Quartiles, Déciles, Diagramme en boite La médiane d’une série statistique est un réel noté Me ou M tel que :

° Au moins 50% des valeurs de la série soient inférieures ou égales à Me

° Au moins 50% des valeurs de la série soient supérieures ou égales à Me.

Le premier quartile d’une série, noté Q1 est la plus petite valeur de la série telle qu’au moins 25% des valeurs prises par la série soient inférieures ou égales à Q1.

Le troisième quartile d’une série, noté Q3 est la plus petite valeur de la série telle qu’au moins 75% des valeurs prises par la série soient inférieures ou égales à Q3.

On peut donc en déduire qu’environ 50% des valeurs de la série sont comprises entre Q1 et Q3, c'est-à-dire à l’intervalle interquartile

[

Q1;Q3

]

. Plus l’amplitude de cet intervalle (Q3Q1) est faible, moins les valeurs sont dispersées. Le nombre Q3−Q1, appelé écart interquartile, est un paramètre de dispersion.

Le premier décile d’une série, noté D1 est la plus petite valeur de la série telle qu’au moins 10% des valeurs de la série soient inférieures ou égales à D1.

Le neuvième décile d’une série, note D9 est la plus petite valeur de la série telle qu’au moins 90% des valeurs de la série soient inférieures ou égales à D9.

Le diagramme en boite ou boite à moustaches d’une série est un diagramme faisant apparaître Me, Q1 et Q3, D1 et D9 (et éventuellement la valeur minimale et la valeur maximale prises par le caractère). La largeur du rectangle est arbitraire.

Ce diagramme, rapide à construire, permet de visualiser la dispersion d’une série statistique ou d’en comparer plusieurs entre elles.

II. Exemple introductif – Contexte

Dans la vie, il est parfois utile d’être capable de rejeter une hypothèse.

Par exemple, il est proposé à toute femme enceinte d’environ 3 mois, un examen (appelé tri test) qui permet de rejeter, avec une marge d’erreur "minime", l’hypothèse d’une trisomie 21 pour le futur enfant. Mais attention, parfois cet examen ne permet pas de rejeter cette hypothèse : pour autant l’enfant n’est pas forcément trisomique (dans ce cas, la femme se voit alors proposer un autre examen complémentaire, appelé amniocentèse, qui lui décèle à 100% la trisomie 21).

Dans ce chapitre, nous allons voir dans quels cas, on peut rejeter l’hypothèse d’équirépartition.

Imaginons que l’on dispose d’une pièce de monnaie. On souhaite savoir si on peut rejeter l’hypothèse qu’elle soit bien équilibrée. On la lance 50 fois (il est difficile d’envisager de lancer cette pièce un grand nombre de fois à la main). On obtient 30 fois "PILE" et 20 fois "FACE". Peut-on raisonnablement rejeter l’idée qu’elle est équilibrée. En fait, on ne peut être sûr de rien mais on peut cependant avoir une idée en utilisant les simulations. En effet, si on simule (par ordinateur

Un exemple de diagramme en boites

D1 Q1 Me Q3 D9

Min Max

4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40

(2)

Chapitre 13: Probabilités : Partie 5 : Adéquation de données à une loi équirépartie Page 2 sur 5

par exemple) 10 000 fois l’expérience consistant à lancer 50 fois une pièce de monnaie bien équilibrée, on s’apercevra qu’une proportion pas forcément négligeable de ces 10 000 expériences a obtenu 30 fois "PILE" et 20 fois "FACE".

Dans quelle mesure peut-on rejeter l’hypothèse d’équiprobabilité (c'est-à-dire l’hypothèse qu’elle soit équilibrée) ? C’est ce qu’on se propose de découvrir ci-dessous :

1. Commençons par mesurer l’écart entre les fréquences observées (fréquences mesurées réellement lors des 50 lancers de la pièce) et les fréquences théoriques d’obtenir "PILE" ou "FACE" toutes deux égales à 0,5 (système d’équirépartition).

On a obtenu 30 fois "PILE", la fréquence observée d’apparition de "PILE" est alors 30

50=0,6 et de "FACE" est 20 50=0,4.

On note alors dobs

2 =

∑ (

fi observée−fi théorique

)

2 = 3050122+2050122=(0,6−0,5)2+(0,4−0,5)2=0,02.

Plus le nombre dobs

2 est grand et plus on peut rejeter l’hypothèse que la pièce est équilibrée.

Cependant, nous savons que si nous réalisons à nouveau cette expérience, nous n’obtiendrons pas les mêmes fréquences observées et donc la valeur dobs

2 est soumise à la fluctuation d’échantillonnage.

2. Simulons donc (par exemple par informatique) un grand nombre de fois (par exemple 10 000 fois) une série de 50 lancers d’une pièce bien équilibrée. Calculons pour chacune de ses séries de 50 lancers, l’écart d2 entre les

fréquences obtenues et les fréquences théoriques. Enfin regardons comment se situe la valeur dobs2 par rapport aux 10 000 valeurs d2 obtenues par simulation.

On a simulé par informatique, 10 000 séries de 50 lancers d’une pièce équilibrée et les résultats sont donnés dans le tableau ci-dessous :

Nombre de "PILE"obtenu 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Effectifs 1 1 6 16 36 76 154 274 441 581 755 942 1057 1171

Nombre de "PILE"obtenu 26 27 28 29 30 31 32 33 34 35 36 37 38

Effectifs 1055 1052 802 581 413 288 149 71 47 19 8 3 1

On calcule alors d2=

∑ (

fi observée−fi théorique

)

2 pour chacune de ces simulations et pour plus de lisibilité on calcule 5000d2 que l’on comparera à 5000dobs2 =5000×0,02=100. On obtient alors :

Valeurs de 5000 d2 676 576 484 400 324 256 196 144 100 64 36 16 4 0

Effectifs 1 1 6 16 36 76 154 274 441 581 755 942 1057 1171

Valeurs de 5000 d2 4 16 36 64 100 144 196 256 324 400 484 576 676

Effectifs 1055 1052 802 581 413 288 149 71 47 19 8 3 1

Evidemment, plus une épreuve de la simulation est proche des fréquences théoriques, plus sa valeur 5000d2 est proche de 0 et inversement.

Réorganisons les données en réalisant un tableau suivant les effectifs cumulés croissants des valeurs de 5000d2 :

Valeurs de 5000d2 0 4 16 36 64 100 144

Effectifs cumulés croissants 1171 3238 5277 6834 7996 8850 9412

Fréquences cumulées croissantes en % 11,71 32,38 52,77 68,34 79,96 88,50 94,12

Valeurs de 5000d2 196 256 324 400 484 576 676

Effectifs cumulés croissants 9715 9862 9945 9980 9984 9998 10 000

Fréquences cumulées croissantes en % 97,15 98,62 99,45 99,80 99,84 99,98 100 3. Pour conclure, on utilise la règle suivante (règle admise) :

Avec une marge d’erreur de 10%, on rejettera l’hypothèse que la pièce est équilibrée si le 5000dobs2 est en dehors des 90% des valeurs 5000d2 (c'est-à-dire que si 5000dobs

2 >D9 (9ème décile de la série des 5000d2)).

(3)

Chapitre 13: Probabilités : Partie 5 : Adéquation de données à une loi équirépartie Page 3 sur 5

Si 5000dobs

2 ÂD9, on ne pourra pas rejeter l’hypothèse que la pièce est équilibrée. Mais attention, cela ne nous permettra pas de conclure qu’elle est équilibrée.

Dans notre exemple, 5000dobs2 =100 et D9=144 donc 5000d2obsÂD9. On ne peut donc pas rejeter l’hypothèse que la pièce est équilibrée. Mais on ne peut pas accepter l’hypothèse qu’elle soit équilibrée.

Remarque : on effectue l’expérience de lancer 50 fois 1 pièce de monnaie et on note 35 fois "PILE" et 15 fois "FACE".

Dans ce cas, dobs 2 =



35 501

2

2+



15 501

2

2=0,08 donc 5000dobs2 =400 et d’après la simulation D9 = 144 donc puisque dobs

2 >D9, on peut rejeter avec une marge d’erreur de 10% que la pièce est équilibrée.

III. Généralisation

Soit E l’expérience qui consiste à répéter n fois une épreuve comportant k issues.

On cherche à savoir, si d’après les résultats observés, on peut rejeter l’hypothèse que l’épreuve suit le modèle d’équiprobabilité.

On note dobs

2 =

i=1 k



 fk observée−1

k

2

.

On suppose par ailleurs, que l’on dispose de données simulées un grand nombre de fois sur un modèle théoriquement équirépartie et on étudie la série statistique des grandeurs d2 obtenues.

° Si dobs

2 >D9 (9ème décile de la série des d2 obtenues par simulation), on rejette avec une marge d’erreur de 10%, l’hypothèse que l’épreuve suit le modèle d’équiprobabilité.

° Si dobs

2 ÂD9, on ne peut pas rejeter l’hypothèse d’équirépartition de l’expérience (sans pour autant pouvoir l’accepter).

Remarques :

Dans de nombreux manuels (et même plusieurs fois dans des exercices de bac !!!), le sujet laisse supposer que si dobs

2 ÂD9 alors on peut considérer que l’expérience est équirépartie avec une marge d’erreur de 10%. Ce qui est FAUX !

Pour savoir si on peut rejeter ou non l’équirépartition, on a énoncé une règle sans en apporter de preuve. Sachez pourtant qu’une étude plus poussée (et donc plus compliquée !) du problème nous aurait permis de mettre en évidence les points suivants :

o Lorsqu’on teste une hypothèse (dans ce chapitre, il s’agit d’une hypothèse d’équirépartition), on procède à des calculs de probabilités en supposant que cette hypothèse est vraie. On peut ainsi calculer la

probabilité de rejeter à tort l’hypothèse de départ alors qu’elle est vraie et donc également la probabilité de rejeter à raison cette hypothèse. Dans la pratique, cela se traduit par le fait que si dobs

2 >D9 alors la probabilité de rejeter à tort l’hypothèse d’équirépartition est inférieure à 0,1 et donc la probabilité de la rejeter à raison qui est supérieure à 0,9. On peut donc bien se permettre de rejeter cette hypothèse.

o Par contre, pour calculer la probabilité d’accepter à tort ou d’accepter à raison l’hypothèse

d’équirépartition, on ne peut se situer qu’à partir du vrai modèle (modèle réel) ce qui est bien évidemment impossible car inconnu dans la réalité.

C’est pour cela que les seules réponses que l’on peut apporter dans ce genre d’exercice sont : ° On peut rejeter l’hypothèse d’équirépartition (avec une marge d’erreur de 10%)

° On ne peut pas rejeter l’hypothèse mais on ne peut pas l’accepter non plus.

(4)

Chapitre 13: Probabilités : Partie 5 : Adéquation de données à une loi équirépartie Page 4 sur 5

IV. Exercices

Exercice 1

Une clinique fait des statistiques sur les naissances (naturelles et non provoquées) selon le jour de la semaine. Sur 1000 naissances naturelles relevées, on obtient les résultats suivants :

Jour de la semaine Lundi Mardi Mercredi Jeudi Vendredi Samedi Dimanche

Nombre de naissances 146 163 158 156 156 116 105

On s’intéresse à l’hypothèse "le nombre de naissances est indépendant du jour de la semaine".

Pour chaque entier i compris entre 1 et 7, on note fi la fréquence des naissances le ième jour de la semaine.

1. Calculer dobs2 =

i=1 7



 fi1

7

2

, puis donner la valeur des 1000dobs2 arrondie à 10-2 près.

2. On simule sur un ordinateur 50 000 séries de 1 000 naissances équiréparties sur les 7 jours de la semaine. Pour chacune de ces 5 000 séries, l’ordinateur a calculé la valeur 1000d2 (où d est la distance entre les fréquences de la série et les fréquences théoriques). Ces valeurs ont permis de construire le diagramme en boite suivant :

Avec un risque d’erreur de 10%, peut-on rejeter l’hypothèse que le nombre de naissances observées dans la clinique est indépendant du jour de la semaine ?

Exercice 2 D’après BAC ES – Pondichéry – Mars 2003

Un pisciculteur possède un bassin qui contient trois variétés de truites : communes, saumonées et arc-en-ciel. Il voudrait savoir s’il peut considérer que son bassin contient autant de truites de chaque variété. Pour cela il effectue, au hasard, 400 prélèvements d’une truite avec remise et on obtient les résultats suivants :

Variété Commune Saumonée Arc-en ciel

Effectifs 146 118 136

Remarque : le problème est mal posé : en effet, le pisciculteur pourra peut être rejeter lhypothèse que son bassin contient autant de truites de chaque variété mais il ne pourra en aucun cas considérer que son bassin contient autant de truites de chaque variété. Le candidat qui aurait donné la réponse à ce niveau de lexercice naurait pas eu tort.

Par ailleurs,( pour votre culture personnelle),il est bon de savoir qu une truite saumonée nest pas une espèce de truite, cest une truite arc-en ciel dont la chair est de couleur "saumon" en raison de son alimentation riche en crustacés roses (ou souvent de colorants dans les élevages). A priori, on ne peut pas la distinguer dune truite arc-en-ciel sauf en comparant leurs chairs ce qui va compromettre la remise.

D1 Q1 Me Q

3 D9

Valeurs de 1000 d² c alculées à partir de la simulation

1 1.5 2 2.5 3

0 0.5 x

y

(5)

Chapitre 13: Probabilités : Partie 5 : Adéquation de données à une loi équirépartie Page 5 sur 5

1.

a. Calculer les fréquences de prélèvement fc d’une truite commune, fs d’une truite saumonée et fa d’une truite arc-en ciel. On donnera les valeurs décimales exactes.

b. On pose d2=

 fc1

3

2+

 fs1

3

2+

 fa1

3

2

.

Calculer 400d2 arrondi à 10-2 près ; on note 400dobs2 cette valeur.

A l’aide d’un ordinateur, le pisciculteur simule le prélèvement au hasard de 400 truites suivant la loi équirépartie. Il répète 1 000 fois cette opération et calcule à chaque fois la valeur de 400d2.

Le diagramme à bandes ci-dessous représente la série des 1 000 valeurs de 400d2, obtenues par simulation.

2. Déterminer une valeur approchée à 0,5 près par défaut, du neuvième décile D9 de cette série.

3. Attention, ne répondez pas à la question suivante qui était posée dans le sujet du bac :

En argumentant soigneusement la réponse dire si on peut affirmer avec un risque derreur inférieur à 10% que « le bassin contient autant de truites de chaque variété ».

Par contre, répondez à la question mieux formulée : En argumentant soigneusement la réponse dire si on peut rejeter lhypothèse avec un risque derreur inférieur à 10% que « le bassin contient autant de truites de chaque variété ».

4. On considère désormais que le bassin contient autant de truites de chaque variété. Quand un client se présente, il prélève au hasard une truite du bassin. Trois clients prélèvent chacun une truite. Le grand nombre de truites du bassin permet d’assimiler ces prélèvements à des tirages successifs avec remise. Calculer la probabilité qu’un seul des trois clients prélève une truite commune.

539

235

122

51 41

12 Valeurs des 400d²

1 1.5 2 2.5 3 3.5 4

0 0.5 x

y

Références

Documents relatifs

Lorsque la série comporte un très grand nombre de valeurs, médiane et quartile sont des indicateurs insuffisants, et on définit alors les déciles ou les centiles.. Par exemple,

Un joueur lance un dé cubique 1000 fois. Il obtient alors les résultats expérimentaux suivants.. Conclure sur l’hypothèse du dé équilibré. Donc on rejette l’hypothèse que le

Il vous permettra de calculer le nombre d’enfants et de mères en âge de procréer (pour la vaccination antitétanique) qui n’ont pas été complètement vaccinés et le nombre

Si les trois boules tirées sont rouges, le joueur gagne 100 € ; si exactement deux boules tirées sont rouges il gagne 15 € et si une seule est rouge il gagne 4 €.. Dans tous

On suppose maintenant qu’un candidat connaît la réponse correcte à deux questions et qu’il répond au hasard aux trois autres

d étant un réel positif, on note X d la variable aléatoire égale au nombre d’autocars n’ayant subi aucun incident après avoir parcouru d kilomètres. (b) Donne r le nombre

En argumentant la réponse, peut-on rejeter l’hypothèse, avec un risque inférieur à 10%, que "le bassin contient autant de truites de chaque variété".. Attention : On ne

Universit´ e Paris Dauphine Syst` emes diff´ erentiels L3 math´ ematiques, 2012-2013 Devoir : analyse qualitative de la comp´ etition entre deux herbivores.. Traiter les parties I,