I Statistique univariée

(1)

BCPST2

95 2 15 Statistiques

Dénition :

Les ensembles étudiés sont appelés population.

Les éléments de la population sont appelés individus et on appelle eectif le nombre de ces individus.

La population est étudiée selon un ou plusieurs caractères.

I Statistique univariée

Dans toute cette section, une population d'eectif total n est observée statistiquement à travers un unique caractère quantitatifxdont les modalités ordonnées par ordre croissant sontx1< x2 < . . . < xp.

A) Eectifs et fréquences Dénition :

G Pour tout k ∈ J1, pK, on appelle eectif de la modalité xk le nombre nk d'individus pour lesquels le caractère est égal à x_k.

G On appelle fréquence de la modalitéx_k le nombref_k, (compris entre 0 et 1), donné par : f_k = eectif dex_k

eectif total = n_k n

G Il est d'usage de regrouper les eectifs (ou les fréquences) des modalités dans un tableau x x1 x2 . . . xp

Eectifs n1 n2 . . . np

La somme des eectifs est égale à l'eectif total, c'est-à-dire n=n₁+n₂+. . .+n_p. La somme des fréquences est égale à 1(attention aux arrondis).

B) Caractéristiques de position 1) Mode

Dénition :

On appelle mode de la série statistique une valeur du caractère dont l'eectif est maximal (parmi les eectifs de toutes les modalités). Sur un diagramme en bâtons, un mode est l'abscisse d'un bâton de plus grande hauteur.

2) Médiane Dénition :

La médiane d'une série statistique est une valeur qui partage la population en deux groupes de même eectif : les individus dont le caractère est inférieur à la médiane et ceux dont le caractère est supérieur à la médiane.

(2)

3) Moyenne Dénition :

On suppose que la série statistique est donnée par :

x x1 x2 . . . xp

Eectifs n₁ n₂ . . . n_p

on appelle moyenne de cette série statistique le nombre réel, notéx, déni par : x= n₁x₁+n₂x₂+. . .+n_px_p

n₁+n₂+. . .+n_p = 1 n

p

X

k=1

n_kx_k

C) Variance, écart type Dénition :

On suppose que la série statistique est donnée par :

x x1 x2 . . . xp

Eectifs n1 n2 . . . np

on appelle variance de cette série statistique le nombre réel, noté V_x, déni par : V_x = 1

n

p

X

k=1

n_k(x_k−x)²

ou ce qui revient au même par la formule de K÷nig-Huygens : Vx=x²−x²

L'écart-type de la série statistique est le nombre réel sx =√

Vx, c'est-à-dire la racine carrée de la variance.

(3)

II Statistique bivariée

On dispose d'une population dans laquelle on considère deux caractères quantitatifs, notés X et Y . On cherche à savoir dans quelle mesureX etY sont liés.

A) Caractéristiques de la série statistique double On dénit les valeurs suivantes :

• La moyenne desxi :x= 1 n

n

X

i=1

xi • La moyenne desyi :y= 1 n

n

X

i=1

yi

• L'écart-type desx_i :s_x = v u u t 1 n

n

X

i=1

x²_i −x² • L'écart-type desy_i :s_y = v u u t 1 n

n

X

i=1

y_i²−y²

• La covariance :s_x,y = 1 n

n

X

i=1

x_iy_i−xy • Le coecient de corrélation : r_x,y = _s^s^x,y

xsy

B) Représentation graphique

â On mesure ces caractères sur les nindividus de la population : on dispose alors den couples de valeurs : (x₁, y₁), . . . ,(x_n, y_n).

â On représente les points(x_i, y_i), on obtient un nuage de points :

− 1

→i

−

→j 1

O −→ 1

i

−

→j 1

O −→ 1

i

−

→j 1

O

Exemple 1 Exemple 2 Exemple 3

Le nuage de points est un bon indicateur pour vérier une corrélation entre les caractèresX etY : â Si les points sont sous la forme d'un nuage, on peut penser que X et Y ne sont pas corrélés.

(premier exemple)

â S'ils semblent dessiner une courbe (exemples 2 et 3), on cherchera à déterminer la nature de la courbe en procédant à un ajustement.

â Lorsque les points semblent alignés (exemple 2), on cherche alors à déterminer une droite qui∆ ajuste au mieux ce nuage de points. On dit alors qu'on eectue un ajustement linéaire.

C) Ajustement linéaire

Il existe plusieurs méthodes pour déterminer une telle droite.

La plus connue est la méthode dite des moindres carrées :

(4)

Méthode des moindes carrés

Méthode

â Soit ∆la droite d'équation :y=ax+b.

− 1

→i

−

→j 1

O

∆ :y =ax+b

•Mi

•P_i y_i

ax_i+b

x_i

À tout pointM_i(x_i, y_i), on associe le point Pi, projection deMisur∆parallèlement à (Oy). Ainsi,Piest le point de coordonnées (x_i, ax_i+b).

La méthode des moindres carrés consiste à chercher les réelsaetbpour qui minimise la somme :

S(a, b) =

n

X

i=1

MiP_i² =

n

X

i=1

(yi−axi−b)²

â Calcul de (a, b)

Le minimum est obtenu pour :







a= sx,y

s²_x b=y−s_x,y

s²_x x

â Pour tester de la pertinence de la régression linéaire, on regarde si |r_x,y|est proche de 1. (En pratique : |r_x,y|>0.8)

Remarque:

Si on considère les projections des pointsM_i sur∆parallèlement à(Ox)(au lieu de(Oy), un calcul simillaire donne une droite : ∆⁰:y=a⁰x+b⁰ avec











a⁰ = s²_y s_x,y b⁰ =y− s²_y

sx,y

x Ces deux droites se coupent en (x, y).

De plus, elles sont égales si et seulement si elles ont même coecient directeur, soita=a⁰. On obtient alors : s²_x,y =s²_xs²_y ⇐⇒ rx,y=±1.

D) Autres ajustements

Lorsque les points ne semblent pas alignés mais semblent dessiner une autre courbe simple, on essaye de se ramener à un ajustement linéaire :

â Si on pense que les points sont liées par une fonction exponentielle :Y =λexp(αX) avecλ >0 ä On pose Z = lnY. On a alors : Y =λexp(αX) ⇐⇒ Z = lnλ+αX.

ä On tente un ajustement linéaire sur les points (xi,lnyi).

â Si on pense que les points sont liées par une fonction puissance :Y =λX^α avec λ >0 ä On pose Z = lnY etT = lnX.On a alors :Y =λX^α ⇐⇒ Z = lnλ+αT. ä On tente un ajustement linéaire sur les points (lnxi,lnyi).

(5)

III Statistique inférentielle

L'inférence statistique consiste à induire les caractéristiques inconnues d'une population à partir d'un échantillon issu de cette population. Les caractéristiques de l'échantillon, une fois connues, reètent avec une certaine marge d'erreur possible celles de la population.

L'inférence statistique est donc un ensemble de méthodes permettant de tirer des conclusions ables à partir de données d'échantillons statistiques. L'interprétation de données statistiques est, pour une large part, le point clé de l'inférence statistique. Elle est guidée par plusieurs principes et axiomes.

La problématique de l'inférence statistique consiste, à partir d'un échantillon de données provenant d'une population de loi de probabilité inconnue, à déduire des propriétés sur cette population : quelle est sa loi (problème d'estimation), comment prendre une décision en contrôlant au mieux le risque de se tromper (problème de test)

Exemple :

©

¬ On veut connaitre le résultat des prochaines élections municipales dans une ville. On ne peut pas interroger toute la ville. On réalise un sondage sur 1000 habitants et on en tire des conclusions.

On veut faire une étude sur l'obésité des enfants de 14 ans en France. On pèse les enfants de 14 ans d'un collège et on en déduit le poids moyens des enfants de 14 ans en France.

® On veut comparer les résultats de l'étude précédente à une étude analogue aux E.U.

et savoir si les populations sont diérentes ou comparables.

A) Vocabulaire de l'échantillonnage et de l'estimation Dénition : Echantillon

Soitn∈N^∗ SoitX une variable aléatoire. Unn-échantillon deX est unn-uplet(X₁, X₂, . . . , X_n) de variables aléatoires indépendantes et de même loi queX.

Dénition : Estimateur

Soit X une variable aléatoire et (X₁, . . . , X_n) un échantillon de X. Un estimateur d'un paramètre θ est une suite (Tn) de variables aléatoires, chaqueTnétant une fonction de (X1, X2, . . . , Xn)donnant de l'information sur le paramètreθ.

Remarque:

On ne s'intéressera dans ce cours uniquement à des estimateurs de l'espérance ou la variance de X.

Remarque:

La valeur de Tnobtenue à partir d'un échantillon observé est l'estimation du paramètre.

B) Erreur d'estimation et biais Remarque:

G La dénition d'estimateur n'impose aucune information sur son lien avec le paramètre estimé. Il existe des estimateurs plus intéressants que d'autres ! !

G La propriété attendue d'un estimateur est qu'il converge vers le paramètre estimé θ quand la taille de l'échantillon tend vers +∞.

Cela justie qu'on obtienne une valeur approchée de θen prenant une estimation.

Cette convergence peut-être, en moyenne, en probabilité, presque-sure,....

(6)

Dénition : Erreur d'estimation

Soit X une variable aléatoire et (X₁, . . . , X_n) un échantillon deX. Soit Tn un estimateur d'un paramètre θ.

On dénit l'erreur d'estimation par Tn−θ. Dénition : biais

Avec les notations précédentes, on dénit le biais, et on note b(T_n), l'epérance de l'erreur estimation, b(Tn) =E(Tn)−θ

On dit qu'un estimateur est sans biais si son biais est nul.

Dans le cas contraire, on dit que l'estimateur est biaisé.

Remarque:

Même si l'estimateur est sans biais, l'erreur entre l'estimation et le paramètre à estimer peut-être importante puis que le biais ne donne qu'une information sur l'espérance. (les écarts peuvent se compenser)

Dénition : Risque quadratique

Soit X une variable aléatoire et (X1, . . . , Xn) un échantillon deX. Soit T_n un estimateur d'un paramètre θ.

On dénit le risque quadratique par :

r(T_n) =E(T_n−θ)²

C'est-à-dire quer(T_n) est la moment d'ordre 2de l'erreur d'estimation.

C'est la variance de l'erreur d'estimation si l'estimateur est sans biais.

C) Estimateur de l'espérance Dénition :

SoitX une variable aléatoire d'espéranceµet de varianceσ². Soit(X₁, . . . , X_n)un échantillon deX. La moyenne empirique M_n= 1

n

X

i=1

X_i est un estimateur de µ.

Remarque:

M_n est souvent noté X_n. Proposition :

G M_n est un estimateur sans biais deµ.

G Notons ε_n=M_n−µl'erreur d'estimation. On a : r(M_n) =V(ε_n) = σ²

n −→

n→+∞0 Démonstration :

Remarque:

Cette dernière propriété justie que M_n est un bon estimateur !

(7)

D) Estimateur de la variance Dénition :

SoitX une variable aléatoire d'espéranceµet de varianceσ². Soit(X₁, . . . , X_n)un échantillon deX. La variance empiriqueS_n² = 1

n

X

i=1

(X_i−M_n)²= 1 n

n

X

i=1

X_i²

!

−M_n² est un estimateur deσ².

Remarque: Calcul du biais

On a b(S_n²) =E(S_n²)−σ². On ab(S_n²) =−σ² n −→

n→+∞0. On pose, l'estimateur corrigé :

S_n⁰²= n

n−1S_n² = 1 n−1

n

X

i=1

(X_i−M_n)²

On a un estimateur sans biais. C'est ce qui est fait dans la plupart des tableurs.

IV Intervalle de conance de la moyenne

A) Contexte

On considère une variable aléatoire X d'espéranceµet un échantillon (X₁, . . . , X_n).

On a vu queMn donne un estimateur deµ, mais on voudrait également calculer deux valeurs A etB délimitant un intervalle[A, B]dans lequelµest probablement situé.

Contrairement à µ qui est supposé xé (mais non connu), A et B sont des variables aléatoires puis- qu'elles dépendent des résultats expérimentaux obtenus. On peut donc s'intéresser à la probabilité que µsoit dans l'intervalle [A, B].

Dénition :

On considère une variable aléatoire X d'espéranceµet un échantillon (X1, . . . , Xn). SoientA_n etB_n deux estimateurs deµetα∈]0,1[.

G On dira que[A_n, B_n]est un intervalle de conance au niveau1−α (ou au seuil de risque α) si P(µ∈[An, Bn]) = 1−α

En général, on cherchera à donner un intervalle symétrique au sens où : P(µ > B_n) =P(µ < A_n) =α/2

G On dira que [An, Bn]est un intervalle de conance asymptotique au niveau 1−α (ou au seuil de risque α) si

P(µ∈[A_n, B_n]) −→

n→+∞1−α

Remarque:

Si on a une réalisation (x1, . . . , xn) de (X1, . . . , Xn), on en déduit une estimation de l'intervalle de conance [A_n(x₁, . . . , x_n), B_n(x₁, . . . , x_n)].

En disant queµ est dans cette intervalle, on se trompe avec une probabilité de α.

(8)

B) Théorème central limite

Théorème : Théorème central limite deuxième forme

Soit (Xn)_n∈_N∗ une suite de variables aléatoires indépendantes, de même loi, admettant une variance non-nulle.

Notons µl'espérance commune des X_n pour n∈N^∗ etσ leur écart-type commun. On note :

Mn= 1 n

n

X

k=1

X_k etSn= v u u t 1 n

n

X

k=1

(X_k−Mn)²

P a < M_n−µ

Sn

√n

< b

!

n→+∞−→ Φ(b)−Φ(a) = Z b

a

exp(−^x₂²)

√2π dx

C) Utilisation pour déterminer un intervalle de conance de l'espérance Proposition :

SoitX une variable aléatoire d'espéranceµet de varianceσ². Soit(X₁, . . . , X_n)un échantillon deX. On note :

Mn= 1 n

n

X

i=1

etSn= v u u t 1 n

n

X

k=1

(Xk−Mn)²

On a alors :

P

Mn−u1−^α₂

S_n

√n < µ < Mn+u1−^α₂

S_n

√n

n→+∞−→ 1−α

où u₁₋^α

2 est le quantile d'ordre1−α

2 de la loiN(0,1), c'est-à-dire l'unique valeuru telle que : Φ(u) = 1−α

2

Démonstration : D) En pratique

Détermination d'un intervalle de conance

Méthode

On déterminera donc un intervalle de conance deµau niveau de conance de1−αde la façon suivante :

1^◦) α etn étant xés, trouver l'unique valeuru₁₋^α

2 telle queΦ(u₁₋^α

2) = 1− α 2. 2^◦) Eectuer les mesures, calculer leur moyenneM_n et l'écart type empirique S_n. 3^◦) L'intervalle de conance au niveau de conance de 1−α est alors

Mn−u1−^α

2

Sn

√n, Mn+u1−^α

2

Sn

√n

Valeurs usuelles :

viveau de conance (1-α) 80% 90% 95% 99%

Valeur de Φ(u₁₋^α

2) 0.9 0.95 0.975 0.995

Valeur de u1−^α

2 1.29 1.65 1.96 2.58

(9)

Remarque:

L'intervalle de conance déterminé est un intervalle asymptotique, il est donc valable pour des grandes valeurs de n(n >30 en pratique).

Pour de plus petites valeurs den, il faut procédé autrement (en utilisant la loi de Student).

V Test de conformité de la moyenne

A) Contexte

G On considère une population dans laquelle les individus possèdent un certain caractèreX et dont la valeur d'un paramètre relatif au caractère étudié est inconnue. Une hypothèse est formulée sur la valeur de ce paramètre : cette hypothèse peut résulter de considérations théoriques, pratiques ou encore être basée sur un pressentiment.

G On va alors étudier un échantillon de la population et, à partir des résultats obtenus, rejeter ou non l'hypothèse formulée.

G L'hypothèse selon laquelle on xe à priori un paramètre de la population à une valeur particulière s'appelle l'hypothèse nulle et est notée H₀ . N'importe quelle autre hypothèse qui dière de l'hypothèseH₀ s'appelle l'hypothèse alternative et est notéeH₁.

G Un test statistique est une démarche qui a pour but de fournir une règle permettant, à partir des résultats obtenus sur l'échantillon, de faire un choix entre ces deux hypothèses. C'est l'hypothèse H0 qui est soumise au test et toute la démarche du test s'eectue en supposant cette hypothèse validée.

G Nous allons donc établir des règles de décision qui vont nous conduire à accepter ou à rejeter l'hypothèse H0 . Toutefois, il est statistiquement impossible de prendre, à coup sûr, la bonne décision. Le risque, consenti à l'avance et que nous notons α, de rejeter l'hypothèse H0 alors qu'elle est vraie, s'appelle le risque de première espèce ; ainsi :

P_[H

0 est vraie^](rejeterH0) =α En général, on choisit α= 0.05 ouα= 0.01 .

G Il existe un autre risque, à savoir celui d'accepter l'hypothèseH0 alors qu'elle est fausse. Ce risque est appelé le risque de seconde espèce. Le risque de première espèceα est xé au départ ; celui de deuxième espèce est plus dicile à calculer.

B) Faire un test de conformité sur la moyenne Proposition :

Soit X une variable aléatoire et d'espéranceµet de variance σ². Soit (X1, . . . , Xn) un échantillon deX.

On dénit l'hypothèse nulle H₀ :µ₀=µet l'hypothèse alternative H₁ :µ6=µ₀. On pose :

M_n= 1 n

n

X

i=1

X_i etS_n² = 1 n

n

X

i=1

(X_i−M_n)²

Pour µ₀=µ, on a :P

M_n−µ₀

Sn

√n

> u₁₋^α

2

!

n→+∞−→ α

(10)

C) Pratique

Méthode

1^◦) α etn étant xés, trouver l'unique valeuru₁₋^α

2 telle queΦ(u₁₋^α

2) = 1− α 2. 2^◦) Eectuer les mesures, calculer leur moyenneMn et l'écart type empirique Sn. 3^◦) On rejette l'hypothèse si la valeur observée de M_n−µ₀

Sn

√n

est en dehors de l'intervalle [−u₁₋^α

2, u₁₋^α

2]

4^◦) Le risque de rejeterH₀ alors qu'elle est vrai est asymptotiquement α.

5^◦) Le test est asymptotique, on l'utilisera pour de grandes valeurs de n (n > 30), dans les autres cas, il existe d'autres façons de faire.

(11)

BCPST2

95 2 15 Statistiques

Le rôle des statistiques est fondamental en génétique. Par exemple, les statistiques montrent que le nombre d'enfants est un trait héréditaires. Si vos parents n'ont pas d'enfants, il y a de grandes chances que vous non plus.

le tableau suivant présente le volume (en milleirs de tonnes) d'importations de produits horticoles dans 6 pays de 2006 à 2010.

PP PP

PP PPP

Pays Année États-Unis Allemagne Russie Chine France Canada

2006 13823 10141 6889 6454 6623 4180

2007 15083 10494 7471 6117 6920 4286

2008 15057 11708 8381 3836 7038 4293

2009 14920 11500 7828 8599 6678 4342

2010 16325 11555 8964 8669 6852 4566

1^◦) Calculer le volume moyen d'importations de ces pays en 2010. Quel est l'écart type correspondant ?

2^◦) Dresser le diagramme en batons correspondant.

3^◦) On étudie les importations horticoles du Canada. Représenter les données sous forme d'un nuage de points. Proposer un modèle donnant les importations en fonctions du temps. Discuter de la pertinence de votre modèle.

Plus une région est vaste, plus le nombre d'espèces y vivant est grand. Pour modéliser mathé- matiquement ce phénomèe (et mesurer ce qu'on appelle la biodiversité les scientiques utilisent régulièrement le loi SPAR(species-area relationship). Elle stipule que si A représente la surface de la région étudiée etS le nombre d'espèces présentes dans cette région, alors on a :

N =CS^z

oùC etz sont des constantes à ajuster selon la région étudiée.

On étudie les plantes d'une prairie. Les données récoltées sont résumées dans le tableau suivant : Surface S (en m²) 1 2 4 8 16 32 64

Nombre d'espèces N 6 7 8 10 10 13 14 1^◦) Représenter le nuage de points.

2^◦) Proposer une méthode pour déterminerC etz. L'appliquer 3^◦) Discuter sur la pertinence de la méthode et de la loi SPAR.

(12)

Contrairement aux idées reues, l'épinard n'est pas l'aliment le plus riche en fer. La lentille, par exemple, en apporte davantage.

Pour vérier ces propos, on a procédé à des analyses de fer sur 10 échantillons d'épinard et 10 échantillons de lentilles. Les résultats sont indiqués dans le tableau suivant. (la teneur est indiquée en mg pour 100g du produit frais.)

Échantillon 1 2 3 4 5 6 7 8 9 10

Épinard 2.64 2.75 2.82 2.72 2.66 2.59 2.83 2.7 2.67 2.62 Lentille 9.02 9.08 8.82 8.94 8.95 9.11 9.14 9.02 9.04 8.85

1^◦) Calculer la teneur moyenne en fer, la valeur médiane et l'écart-type pour les épinards et les lentilles.

2^◦) Déterminer un intervalle de conance de à 95% pour la moyenne pour les épinards et les lentilles.

3^◦) Réaliser un graphique qui permet d'illustrer le propos initial.

Soient a un réel strictement positif etX une variable aléatoire suivant la loi uniforme sur [0;a], où a est un paramètre inconnu que l'on cherche à estimer Soit n ∈ N^∗ . On considère un échantillon (X₁, ..., X_n) deX.

1^◦) On pose : Xn= X₁+· · ·+X_n

n et Tn= 2Xn.

Montrer queT_n est un estimateur sans biais dea et calculer son risque quadratique.

2^◦) On pose Mn = max(X1, . . . , Xn).

a) Déterminer la loi de M_n . Calculer son espérance et sa variance.

b) En déduire un estimateur, noté U_n , sans biais dea. c) Entre les estimateursT_n etU_n, lequel choisir ?

An d'évaluer le nombreN d'individus d'une espèce animale vivant sur une île, on propose d'adop- ter la méthode de capture-marquage-recapture. Pour cela, on capturemindividus (métant connu) que l'on marque d'un signe distinctif puis que l'on relâche sur l'île (c'est la phase de capture- marquage). La phase de recapture peut se faire (au moins) de deux façons.

1^◦) Une première méthode consiste à eectuer des recaptures successives avec remise, jusqu'à obtenir un individu marqué. On répète cette expérience n fois (n étant connu) et l'on note, pour toutk deJ1, nK,Xkle nombre de captures eectuées lors de lak-ième expérience. On note ennX_n= 1

n

X

k=1

X_k.

a) Déterminer, pour tout k deJ1, nK, la loi de X_k , puis en déduire l'espérance et la variance deXn .

(13)

b) En déduire un estimateur sans biais de N. c) Montrer :

∀(a, b)∈R² tel que a < b,P a6

√nmX_n−√ nN pN(N −m) 6b

!

n→+∞−→ Φ(b)−Φ(a)

oùφ est la fonction de répartition de la loi normale centrée réduite.

d) Soit α∈]0; 1[. En déduire un intervalle de conance de N au risque α.

e) Sachant que l'on a marqué m = 800 individus et qu'il a fallu 1000 captures pour obtenir n = 200 individus marqués, donner une estimation d'un intervalle de conance de N à 95%.

2^◦) Une seconde méthode consiste à recapturern individus (n étant connu) avec remise. On note Y_n le nombre d'individus marqués obtenus.

a) Déterminer la loi de Y_n, son espérance et sa variance.

b) Montrer que Y_n

nm est un estimateur sans biais de 1

N . Peut-on prendre nm

Y_n comme estimateur de N?

c) Calculer l'espérance de 1

Y_n+ 1. En déduire un estimateur asymptotiquement sans biais deN.

d) Soit α∈]0; 1[. Donner un intervalle de conance de N au risqueα.

e) Sachant que l'on a marqué m = 800 individus, que l'on a recapturé n = 1000 individus parmi lesquels étaient marqués 200 individus, donner une estimation d'un intervalle conance de N à 95%.

Un sondage consiste à proposer l'armation A à certaines personnes d'une population donnée. Le sujet abordé étant délicat, le stratagème suivant est mis en place an de mettre en conance les personnes sondées pour qu'elles ne mentent pas ... L'enquêteur dispose d'un paquet de 20 cartes, numérotées de 1 à 20, qu'il remet à la personne sondée. Celle-ci tire une carte au hasard et ne la montre pas à l'enquêteur. La règle est alors la suivante :

â si la carte porte le numéro 1, la personne sondée répond vrai si elle est d'accord avec l'armation A et faux sinon ;

â si la carte porte un autre numéro, la personne sondée répond vrai si elle n'est pas d'accord avec l'armation A et faux sinon.

Le but de l'enquête est d'évaluer la proportionp de personnes de cette population qui sont réelle- ment d'accord avec l'armation A.

1^◦) On interroge une personne selon ce procédé et on considère l'événement V : la personne répond vrai . On note θ = P(V). Exprimer θ en fonction de p, puis en déduire p en fonction de θ .

2^◦) On considère un échantillon aléatoire, de taillen, extrait de la population considérée et on note S_n le nombre de réponses vrai obtenues. On suppose n assez grand pour pouvoir considérer que cet échantillonnage est assimilable à un tirage avec remise.

(14)

a) Donner la loi de S_n , ainsi que son espérance et sa variance.

b) Montrer que Sn

n est un estimateur sans biais de θ , et déterminer la limite de E

S_n n −θ

2!

lorsque n tend vers +∞.

c) Soit α∈]0; 1[. Déterminer un intervalle de conance de θ au risque α puis de p au risque α.

3^◦) Dans cette question, on suppose que l'on a réalisé un échantillon de 100 personnes et on constate que 23 personnes ont répondu vrai

a) Donner une estimation ponctuelle de θ et de p.

b) Donner une estimation d'un intervalle de conance à 95% deθ puis de p. c) Que pensez vous du choix d'une carte sur 20?

On veut comparer les eets de deux médicaments soporiques, notés A et B. On a testé les médicaments sur 10 personnes, les eets sont notés comme les heures additionnelles de sommeil.

Patient A B B-A

1 0.7 1.9 1.2

2 -1.6 0.8 2.4

3 -0.2 1.1 1.3

4 -1.2 0.1 1.3

5 -0.1 0.1 0

6 3.4 4.4 1

7 3.7 5.5 1.8

8 0.8 1.6 0.8

9 0 4.6 4.6

10 2 3.4 1.4

Moyenne 0.75 2.33 1.58

On veut tester si l'eet plus pronocé pour le médicament B est signicatif.

1^◦) L'expérience ici correspond à une expérimentation où on a testé les 2 médicaments succéssive- ment sur les mêmes patients, numéro de1à10. Ainsi l'écart entreB etAmesure eectivement la diérence de réaction entre les deux médicaments sur un même patient.

On va tester l'hypothèseH₀ :Il n'y a pas de diérence entreA etB. contre l'hypothèseH₁ : Il y a une diérence entreA et B.

Réaliser un test de conformité à la moyenne sur B−A sous l'hypothèseµ= 0. Conclure.

2^◦) L'expérience ici correspond à une expérimentation sur10patients pour le médicamentA et10 autres sur B.

L'écartB −A ne correspond plus à rien.

On considère qu'on a tiré 20 patients sur lesquels les médicaments ont un eet en heures de sommeil dont la moyenne estimé est ^0.75+2.33₂ = 1.54.

Réaliser un test de conformité à la moyenne sur A puis sur B sous l'hypothèse µ = 1.54. Conclure.

3^◦) Interpréter les résultats précédents.