Tests non paramétriques Feuille d’exercices
L3 EURIA
20 mars 2018
Exercice 1.
On a lancé 20 fois un dé et on a obtenu les résultats suivants
4,5,6,2,2,5,6,3,2,6,2,4,3,6,3,6,3,2,2,6.
1. Réaliser le test du χ2 afin de vérifier si le dé est équilibré. On pourra utiliser les com- mandes R chisq.test et table pour calculer le tableau d’effectif. Comparer les résultats obtenus en utilisant l’approximation par la loi duχ2 et la méthode de Monte Carlo (op- tionsimulate.p.value).
(a) Quelle méthode est la plus pertinente sur cet exemple ?
(b) Relancer plusieurs fois la commande qui permet de faire le test avec la méthode de Monte Carlo : pourquoi le résultat change-t-il à chaque fois ?
2. Simuler N = 1000 fois 20 lancers d’un dé équilibré avec la fonction sample et calculer la statistique du test de la question précédente pour chacune de ces 1000 expériences simulées.
(a) Tracer un histogramme de la statistique de test simulée (avec l’option freq=FALSE pour que l’aire soit normalisée) et la densité de la loi du χ2 (fonction dchisq) sur le même graphique. Discuter.
(b) Quel est le quantile empirique à 95% de la statistique de test simulée (on pourra uti- liser la fonction quantile) ? Comparer à la statistique de test obtenue sur l’échantillon observé et discuter.
(c) Combien de simulations ont une statistique de test supérieure à celle obtenue sur l’échantillon observé ? En déduire une estimation de la p-value du test et comparer aux résultats donnés par la fonction chisq.test.
Exercice 2. (Baccalauréat ES Amérique du Nord, 4 juin 2009)
Un pépiniériste a planté trois variétés de fleurs dans une prairie de quelques hectares : des violettes, des primevères et des marguerites. Il se demande s’il peut considérer que sa prairie contient autant de fleurs de chaque variété. Il cueille au hasard 500 fleurs et obtient les résultats suivants :
1
Variétés Violettes Primevères Marguerites
Effectifs 179 133 188
1. Calculer les fréquencesfV d’une fleur de variété Violette,fP d’une fleur de variété Prime- vère etfM d’une fleur de variété Marguerite. On donnera les valeurs décimales exactes.
2. On noted2obs= (
fV −1 3
)2 +
( fP −1
3 )2
+ (
fM −1 3
)2 .
Calculer500d2obs. On donnera une valeur approchée arrondie au millième.
3. Le pépiniériste, ne voulant pas compter les quelques milliards de fleurs de sa prairie, opère sur ordinateur en simulant le comptage, au hasard, de 500 fleurs suivant la loi équirépartie.
Il répète 2000 fois l’opération et calcule à chaque fois la valeur de500d2obs. Ses résultats sont regroupés dans le tableau suivant :
Intervalle auquel [0 ; 0,5[ [0,5 ; 1[ [1 ; 1,5[ [1,5 ; 2[ [2 ; 2,5[ [2,5 ; 3[ [3 ; 3,5[ [3,5 ; 4[ [4 ; 4,5[ [4,5 ; 5[
appartient500d2obs
Nombre par intervalle 163 439 458 350 231 161 80 47 37 34
Par exemple : le nombre 500d2obs apparaît 163 fois dans l’intervalle [0 ; 0,5[.
On noteD9 le neuvième décile de cette série statistique.
Montrer queD9 ∈[2,5 ; 3[.
4. En argumentant soigneusement la réponse, dire si pour la série observée au début, on peut affirmer avec un risque inférieur à 10 % que « la prairie est composée d’autant de fleurs de chaque variété ».
5. Question supplémentaire.Reprendre la question précédente en utilisant les méthodes vues dans le cours.
Exercice 3.
Une société d’assurances a comptabilisé, parmi ses 500 assurés, ceux qui ont déclaré un (ou plusieurs) sinistres au cours d’une année. Les résultats sont présentés dans le tableau suivant :
Sinistres déclarés 0 1 2 3 4 5 Nombre d’assurés 171 202 80 36 8 3
1. Peut-on admettre au niveau 5% que le nombre de sinistres déclarés par un assuré suit une loi de Poisson de paramètre 1 ?
2. Peut-on admettre au niveau 5% que le nombre de sinistres déclarés par un assuré suit une loi de Poisson ?
2