• Aucun résultat trouvé

Tests non paramétriques Feuille d’exercices L3 EURIA

N/A
N/A
Protected

Academic year: 2022

Partager "Tests non paramétriques Feuille d’exercices L3 EURIA"

Copied!
5
0
0

Texte intégral

(1)

Tests non paramétriques Feuille d’exercices

L3 EURIA

1er mars 2017

Exercice 1.

On reprend les notations du cours sur le test du χ2. 1. CalculerE[An(j)] etvar(An(j)).

2. Ecrire la loi des grands nombres et le théorème central limite pour la suite de variables aléatoiresZi =1l(Xi =j).

3. On suppose dans la suite de l’exercice que k = 2. Montrer que Pk j=1

(An(j)j)2

j =

(An(1)−nπ1)2 1(1−π1) .

4. Déduire des questions précédentes que Pk

j=1

(An(j)j)2 j

L χ2k1 lorsque n→+∞.

Exercice 2.

On a lancé 20 fois un dé et on a obtenu les résultats suivants

4,5,6,2,2,5,6,3,2,6,2,4,3,6,3,6,3,2,2,6.

1. Réaliser le test du χ2 afin de vérifier si le dé est équilibré. On pourra utiliser les com- mandes R chisq.test et table pour calculer le tableau d’effectif. Comparer les résultats obtenus en utilisant l’approximation par la loi duχ2 et la méthode de Monte Carlo (op- tionsimulate.p.value).

(a) Quelle méthode est la plus pertinente sur cet exemple ?

(b) Relancer plusieurs fois la commande qui permet de faire le test avec la méthode de Monte Carlo : pourquoi le résultat change-t-il à chaque fois ?

2. Simuler N = 1000 fois 20 lancers d’un dé équilibré avec la fonction sample et calculer la statistique du test de la question précédente pour chacune de ces 1000 expériences simulées.

(a) Tracer un histogramme de la statistique de test simulée (avec l’option freq=FALSE pour que l’aire soit normalisée) et la densité de la loi du χ2 (fonction dchisq) sur le même graphique. Discuter.

(2)

(b) Quel est le quantile empirique à 95% de la statistique de test simulée (on pourra uti- liser la fonction quantile) ? Comparer à la statistique de test obtenue sur l’échantillon observé et discuter.

(c) Combien de simulations ont une statistique de test supérieure à celle obtenue sur l’échantillon observé ? En déduire une estimation de la p-value du test et comparer aux résultats donnés par la fonction chisq.test.

Exercice 3. (Baccalauréat ES Amérique du Nord, 4 juin 2009)

Un pépiniériste a planté trois variétés de fleurs dans une prairie de quelques hectares : des violettes, des primevères et des marguerites. Il se demande s’il peut considérer que sa prairie contient autant de fleurs de chaque variété. Il cueille au hasard 500 fleurs et obtient les résultats suivants :

Variétés Violettes Primevères Marguerites

Effectifs 179 133 188

1. Calculer les fréquencesfV d’une fleur de variété Violette,fP d’une fleur de variété Prime- vère etfM d’une fleur de variété Marguerite. On donnera les valeurs décimales exactes.

2. On noted2obs=

fV −1 3

2

+

fP −1 3

2

+

fM −1 3

2

.

Calculer500d2obs. On donnera une valeur approchée arrondie au millième.

3. Le pépiniériste, ne voulant pas compter les quelques milliards de fleurs de sa prairie, opère sur ordinateur en simulant le comptage, au hasard, de 500 fleurs suivant la loi équirépartie.

Il répète 2000 fois l’opération et calcule à chaque fois la valeur de 500d2obs. Ses résultats sont regroupés dans le tableau suivant :

Intervalle auquel [0 ; 0,5[ [0,5 ; 1[ [1 ; 1,5[ [1,5 ; 2[ [2 ; 2,5[ [2,5 ; 3[ [3 ; 3,5[ [3,5 ; 4[ [4 ; 4,5[ [4,5 ; 5[

appartient500d2obs

Nombre par intervalle 163 439 458 350 231 161 80 47 37 34

Par exemple : le nombre 500d2obs apparaît 163 fois dans l’intervalle [0 ; 0,5[.

On noteD9 le neuvième décile de cette série statistique.

Montrer queD9 ∈[2,5 ; 3[.

4. En argumentant soigneusement la réponse, dire si pour la série observée au début, on peut affirmer avec un risque inférieur à 10 % que « la prairie est composée d’autant de fleurs de chaque variété ».

5. Question supplémentaire.Reprendre la question précédente en utilisant les méthodes vues dans le cours.

Exercice 4.

Une société d’assurances a comptabilisé, parmi ses 500 assurés, ceux qui ont déclaré un (ou plusieurs) sinistres au cours d’une année. Les résultats sont présentés dans le tableau suivant :

Sinistres déclarés 0 1 2 3 4 5 Nombre d’assurés 171 202 80 36 8 3

(3)

1. Peut-on admettre au niveau 5% que le nombre de sinistres déclarés par un assuré suit une loi de Poisson de paramètre 1 ?

2. Peut-on admettre au niveau 5% que le nombre de sinistres déclarés par un assuré suit une loi de Poisson ?

Exercice 5. (Examen 2015-2016, 6 points)

On s’intéresse au taux de pannes sur un serveur de données mis en place au sein d’une entreprise. Le serveur a été observé pendant n = 100 semaines et on a noté chaque semaine le nombre de pannes(x1, ..., xn)dues à diverses défaillances. Les résultats obtenus sont donnés dans le tableau 1.

Table 1 – Distribution observée du nombre de pannes par semaine Nombre de pannes par semaine 0 1 2 3 4 Total

Nombre de semaines 35 34 23 6 2 100

1. Peut-on supposer que les pannes suivent une loi de Poisson de paramètre1? On rappelle que siX suit une loi de Poisson de paramètre λ∈R+ alors

P(X =k) =ekλk k!

pour k∈ N. On détaillera le raisonnement statistique (hypothèse du test, statistique de test, ...) et on donnera toutes les commandes R utilisées sur la copie.

2. Peut-on supposer que les pannes suivent une loi de Poisson ? On détaillera le raisonnement statistique et on donnera toutes les commandesR utilisées sur la copie.

Exercice 6.

En utilisant R, simuler un échantillon x de taille 1000 d’une loiN(0,1).

1. Réaliser un qqplot permettant de comparer les quantiles empiriques dexà ceux d’une loi N(0,1).

2. Réaliser un qqplot permettant de comparer les quantiles empiriques dexà ceux d’une loi N(5,10).

3. Retrouver par le calcul que les quantiles des lois N(0,1) et N(µ, σ) sont liés par une relation linéaire. Quelle est la pente de la droite ? Quelle est l’intercept de la droite ? 4. Il existe des commandes spécifiques pour réaliser un QQ-plot dans le cas gaussien ("droite

de Henry"). Taper les commandes suivantes :

> qqnorm(x)

> qqline(x)

Exercice 7.

Soit(X1, ..., Xn)n variables aléatoires i.i.d. de fonction de répartitionF etFn la fonction de répartition empirique associée. Pourx∈R fixé,

(4)

1. Calculer l’espérance et la variance deFn(x).

2. Quelle est la loi denFn(x)?

3. Etudier les propriétés asymptotiques (convergence, normalité asymptotique) de Fn(x) lorsque n→ ∞.

4. On suppose de plus dans cette question queXi suit une loi uniforme sur l’intervalle[0,1].

Soitx1< x2... < xk∈Rk et

Bn=

Fn(x1) ... Fn(xk)

.

Calculer l’espérance et la matrice de variance-covariance du vecteur aléatoireBn. Exercice 8.

On considère l’échantillon suivant :

61; 14; 99; 56; 66; 77; 74; 97; 82; 98; 8; 41.

et on veut tester si il provient d’une loiU([0,100]).

1. Sans utiliser R, tracer la fonction de répartition empirique et la fonction de répartition de la loi uniforme sur [0,100](notée U([0,100]) dans la suite) sur un même graphique.

2. Recommencer en utilisant R. On pourra utiliser la fonction ecdf.

3. On vérifiera sur le graphique de la question 1. que

Dn=supx∈R|Fˆn(x)−F(x)|=maxi∈N(max(|Fˆn(Xi)−F(Xi)|,|Fˆn(Xi)−F(Xi)|)) et on admettra ce résultat dans la suite. En déduire la valeur de la statistiquedobs du test de Kolmogorv-Smirnov.

4. Simuler 1000 échantillons de taille 12 selon une loiU([0,100])et calculer la statistique du test de Kolmogorv-Smirnov pour chacun de ces 1000 échantillons. Quelle est la proportion d’échantillons simulés pour lesquels la statistique de test a une valeur supérieure àdobs? Conclusion ?

5. Recommencer la question précédente en remplaçant la loi U([0,100]) par la loi U([0,1]) puisN(0,1). Discuter.

6. Réaliser le test avec la fonctionR ks.test. Discuter.

7. Réaliser un test duχ2 afin de vérifier si l’échantillon provient d’une loi U([0,100]).

Exercice 9. (Examen 2015-2016, 6 points)

Le jeu de donnéesEuStockMarkets disponible dansRcontient les cours de clôture de plusieurs indices boursiers. On propose dans cet exercice de travailler sur les variations du CAC40. Plus précisément on considérera l’échantillonx obtenu en tapant les commandes suivantes sousR :

> d=diff(EuStockMarkets[,3])

> x=(d-mean(d))/sd(d)

La première commande calcule la variation du cours de CAC40 entre les jours successifs et la deuxième commande centre puis réduit les observations. Vous devez obtenir un échantillon x de longueur 1859 (contactez le surveillant en cas de problème).

(5)

Une hypothèse classique dans les modèles financiers est que l’échantillon x est la réalisation d’un échantillon de la loi normale centrée-réduire (loi N(0,1)). Cette hypothèse vous paraît-elle réaliste ? Répondez en utilisant les différents outils (graphiques et test adapté) vus dans le cours.

On donnera toutes les commandesR utilisées, on reproduira schématiquement les graphiques et on donnera les valeurs numériques obtenues sur la copie.

Exercice 10. (Examen 2015-2016, 8 points)

Dans cet exercice (X1, ..., Xn) désigne un échantillon iid de variables aléatoires réelles de fonction de répartition F et de densité f. Le test de Cramer-Von Mises est une alternative classique au test de Kolmogorov-Smirnov vu dans le cours. Il est basé sur la statistique suivante

I = Z

R

|Fn(x)−F(x)|2f(x)dx avec Fn la fonction de répartition empirique de l’échantillon.

Les deux parties de l’exercice sont largement indépendantes.

Partie 1.

1. On note(X(1), ..., X(n)) l’échantillon trié par ordre croissant de telle manière que X(1) = min(X1, ..., Xn) et X(n) = max(X1, ..., Xn). Montrer que Fn(x) = i/n si X(i) ≤ x <

X(i+1) pouri∈ {1, ..., n−1}. Quelle est la valeur deFn(x) pourx < X(1)? Quelle est la valeur deFn(x)pour x > X(n)?

2. Montrez quenI = 12n1 +Pn

i=1 2i1

2n −F(X(i))2

.

3. Quelle est la loi deF(Xi)? Montrer que la loi deI ne dépend pas de la loi de l’échantillon F. Pourquoi cette propriété est intéressante pour construire un test statistique ?

Partie 2.

1. Proposez et implémentez une méthode permettant de simuler des réalisations de la variable aléatoireI pour une valeur de nquelconque. On pourra utiliser le résultat de la question 2. de la partie précédente et la fonction R sort. On détaillera toutes les commandes R utilisées sur la copie.

2. Proposez et implémentez une méthode permettant de tester si l’échantillon x de l’exer- cice 2 provient d’une loi N(0,1) en utilisant la statistique I. On détaillera toutes les commandes R utilisées sur la copie.

Références

Documents relatifs

L'existence de deux suites de longueur 9, Tune de valeurs supérieures à la médiane au début des observations, l'autre de valeurs inférieures à la médiane vers la fin

La distribution des suites, au-dessus ou au-dessous de la médiane, selon leur longueur, est donnée dans le tableau ci-après (cf.. D’après ce qui précède, on

L’enjeu n’est pas la valeur du paramètre, mais le fait que la loi soit une loi de Poisson : « loi des événements rares et indépendants », cela signifie que le taux

Exercice 4 [début de l'exercice III de l'épreuve de Janvier

Tracer sur un même graphique la fonction de répartition empirique de l’échantillon simulé (on pourra utiliser la fonction ecdf) et la fonction de répartition de la loi N (0,

Simuler N = 1000 fois 20 lancers d’un dé équilibré avec la fonction sample et calculer la statistique du test de la question précédente pour chacune de ces 1000

2 Simuler N = 1000 fois 20 lancers d’un dé équilibré avec la fonction sample et calculer la statistique du test de la question précédente pour chacune de ces 1000

L’objectif de ce projet est de vous initier à l’outil R-Shiny et d’implémenter une applica- tion permettant de visualiser des informations pertinentes à partir des données du