• Aucun résultat trouvé

pour les lois discrètes

N/A
N/A
Protected

Academic year: 2022

Partager "pour les lois discrètes"

Copied!
10
0
0

Texte intégral

(1)

Introduction aux tests non-paramétriques

Support du cours pour les L3 EURIA Année 2015-2016

L'objectif de ce cours est d'introduire deux tests non-paramétriques classiques : le test duχ2et le test de Kolmogorov-Smirnov. Ce sont des tests d'adéquation, c'est à dire qu'ils permettent de vérier si un échantillon provient d'une loi spéciée. Le test duχ2s'applique à des variables qui prennent un nombre ni de valeurs alors que le test de Kolmogorov-Smirnov s'applique aux variables continues. Le cours commence par une introduction très rapide aux tests statistiques. Plus de détails sur la théorie des tests statistiques seront donnés dans le cours de statistique.

1 Introduction aux tests statistiques

Un test statistique permet de vérier si certaines hypothèses faites sur la loi d'un échantillon sont réalistes ou non. Dans la première partie du cours nous considérerons l'exemple suivant.

Exemple. An de vérier si un dé est équilibré, on réalise 90 lancers successifs d'un même dé. Les résultats sont reportés dans le tableau d'eectifs ci-dessous.

Face 1 2 3 4 5 6

Eectifs 9 16 23 10 13 19

Fréquences 0.10 0.18 0.26 0.11 0.14 0.21

Peut-on conclure à partir de cette expérience que les faces ont des probabilités diérentes d'apparaître ? On va construire dans le paragraphe suivant un test (le test duχ2) pour choisir entre les deux

hypothèses suivantes :

H0 : le dé est équilibré contre l'hypothèse alternative

H1 : le dé n'est pas équilibré

Si l'hypothèseH0est valide alors on s'attend à observer approximativement la même fréquence d'apparition de 1, 2,..., 6 (loi des grands nombres). En pratique ces nombres sont diérents. Le test va permettre de décider si les diérences observées entre les eectifs sont "statistiquement" signicatives ou si elles peuvent être expliquées par les uctuations d'échantillonnage. Il est évidemment possible d'obtenir le tirage ci-dessus en lançant 90 fois un dé équilibré ou un dé non équilibré et on aura donc toujours une probabilité non nulle de se tromper en choisissantH0ouH1. Un test d'hypothèse statistique va permettre de contrôler ces probabilités de se tromper.

On distingue usuellement deux types d'erreurs :

L'erreur de première espèce qui consiste à rejeterH0 alors queH0 est vraie. On appelle risque de première espèceαla probabilité de choisirH1alors queH0 est vraie.

L'erreur de deuxième espèce qui consiste à accepterH0alors queH0 est fausse. On appelle risque de deuxième espèceβ la probabilité de choisirH0alors queH0 est fausse.

(2)

H0 est vrai H0 est fausse

Accepter H0 1−α β

RefuserH0 α 1−β

En pratique, on xe généralementα(valeurs courantes : 10%, 5% ou 1% selon l'application). 1−β est appelé la puissance du test : pour un risque de première espèce αxé, on cherche à construire le test dont la puissance est la plus grande.

H0 joue donc un rôle plus important queH1 et le test va principalement permettre de vérier si il y a assez d'information dans l'échantillon pour refuser H0. En pratiqueH0sera généralement une hypothèse "simple" (l'échantillon provient d'une loi uniforme dans l'exemple précédent) de telle manière à pouvoir contrôlerαalors que l'hypothèseH1 sera une hypothèse "composite" (l'échantillon ne provient pas d'une loi uniforme : on ne spécie pas de loi alternative) ce qui rend généralement le calcul deβ impossible.

2 Tests du χ

2

pour les lois discrètes

2.1 Principe du test d'adéquation du χ

2

.

Dans ce paragraphe (X1, ..., Xn)désigne un échantillon aléatoire i.i.d. à valeurs dans{1, ..., k}et (x1, ..., xn) = (X1(ω), ..., Xn(ω))une réalisation de cet échantillon (ce sont les observations disponibles).

Dans la suite les lettres majuscules désignent généralement des variables aléatoires et les lettres minuscules les valeurs prises par ces variables aléatoires pour l'échantillon observé.

On note, pourj∈ {1, ..., k},

πj=P[Xi=j]la probabilité de tirer la valeurj, An(j) =card{i∈ {1, ...n}|Xi=j}=∑n

i=11l(Xi=j)le nombre aléatoire de fois que la valeurj est obtenue,

Fn(j) =Ann(j) la proportion empirique pour la valeurj, ...et doncan(j) =card{i∈ {1, ...n}|xi=j}=∑n

i=11l(xi=j)le nombre de fois que la valeurj est obtenue sur l'observation,

fn(j) =ann(j) la proportion observée

Dénition. Soient(U1, ..., Up)pvariables aléatoires i.i.d. de loiN(0,1). AlorsZ=U12+...+Up2∼χ2p (loi du χ2 àpdegrés de liberté). On notera χ2p,γ le quantile d'ordreγ de la loiχ2p qui est tel que P[Z ≤χ2p,γ] =γ.

Le test duχ2 est basé sur le résultat suivant.

Proposition 1.

k j=1

(An(j)j)2 j

L χ2k1 lorsquen→+∞.

Démonstration. La preuve de ce résultat repose sur le théorème limite central multivarié et des

arguments d'algèbre linéaire pour étudier la matrice de covariance asymptotique. Elle est admise dans le cadre de cours. On peut quand même remarquer que la statistique s'écrit comme la somme de ktermes et chacun des termes suit une loi normale d'après le TCL. Ces termes ne sont pas indépendants puisque

k

j=1An(j) =n. Il sut donc d'en connaîtrek−1. C'est le d.d.l. de la loi duχ2. Exercice 2.1. 1. CalculerE[An(j)]etvar(An(j)).

2. Ecrire la loi des grands nombres et le théorème central limite pour la suiteZi=1l(Xi=j). 3. On suppose dans la suite quek= 2. Montrer que∑k

j=1

(An(j)j)2

j = (An(1)1)2

1(1π1) . 4. En déduire que la proposition est vraie dans le cas particulierk= 2.

Le test d'adéquation duχ2permet de tester une hypothèse de la forme H :∀j, π =π contreH :∃j π ̸=π

(3)

avecπj,0 des valeurs xées qui décrivent la loi sousH0.

La proposition précédente implique que siH0 est vraie et n "grand" alors

Dn =

k j=1

(An(j)−nπj,0)2 j,0 =n

k j=1

(Fn(j)−πj,0)2

πj,0 ≈χ2k1 le signe signiant "suit approximativement".

C'est le point de départ pour réaliser le test duχ2. La statistique de test Dn s'interprète comme une distance (on l'appelle généralement la distance du χ2) entre les proportions observéesFn(j) =Ann(j) et les proportions théoriques πj,0sousH0. On s'attend donc à ce queDn soit faible sousH0.

La proposition donne la loi asymptotique deDn sous l'hypothèseH0. Ceci va permettre de contrôler le risque de première espèce (asymptotiquement). En eet supposons que nest susamment grand pour que

PH0(Dn≤χ2p,1α)1−α

où la notation PH0 désigne la probabilité sous l'hypothèseH0(c'est à dire si H0 est vraie). On propose alors d'adopter la règle de décision suivante pour un risque de première espèceα:

on accepteH0siDn≤χ2k1,1α on refuseH0 siDn > χ2k1,1α Le risque de première espèce est

PH0(Dn> χ2k1,1α)≈α

et la règle de décision est intuitive puisqu'on accepteH0si et seulement si la distance duχ2 Dn est petite, c'est à dire si les eectifs observés et théoriques sont proches .

Exemple. Reprenons l'exemple du dé. On a n= 90,k= 6,an(1) = 9,...an(6) = 19,πj,0= 1/6pour j ∈ {1, ...,6}. On présente parfois le calcul de la statistique duχ2 sous la forme d'un tableau.

Face (j) 1 2 3 4 5 6 Total

Eectifs observés (an(j)) 9 16 23 10 13 19 90

Eectifs espérés (j,0) 15 15 15 15 15 15 90

Contributions ((an(j)j,0j,0)2) 2.40 0.07 4.27 1.67 0.27 1.07 9.73 On obtient donc la valeur suivante pour la statistique de test dn = 9.73sur l'échantillon observé.

Choisissons le risque de première espèce α= 5%. Le quantile de la loi duχ2 peut se lire dans une table ou être calculé en utilisant la commande R qchisq. On obtientχ2k1,1α=χ25,0.95= 11.0705. On a dn< χ2k1,1α donc on accepte H0.

2.2 Le test d'adéquation du χ

2

en pratique

Utilisation de R. Les commandes suivantes permettent de réaliser le test avec R sur l'exemple du dé.

> Nobs=c(9,16,23,10,13,19) #effectifs observés

> p=rep(1,6)/6 #probabilités sous H0

> chisq.test(Nobs,p=p)

Chi-squared test for given probabilities data: x

X-squared = 9.7333, df = 5, p-value = 0.08315

Degré de signication d'un test. R renvoie donc le résultat du test sous la forme d'une p-value (degré de signication en français). Elle est dénie par pv=PH0(Dn > dn)avecdn la valeur observée sur l'échantillon. C'est donc le risque de première espèce pour lequel on change de décision pour

(4)

l'expérience. En pratique on accepte H0 avec un risque de première espèceαsi et seulement sipv > α. Ici pv= 0.08donc on accepteH0pour α= 5%. Par contre on refuseH0pour α= 10%. La p-value peut s'interpréter comme une mesure de la vraisemblance deH0: plus la p-value est faible, moins l'hypothèse H0 est réaliste.

Validité asymptotique. Le test repose sur un argument asymptotique et est donc valide lorsquenest

"grand". En pratique on admet généralement que l'approximation par la loi duχ2est bonne lorsque les eectifs espérés sont supérieurs à 5 (c'est à direj,05pour j∈ {1, ..., k}). Lorsque cette condition n'est pas vériée, on peut soit regrouper des classes pour augmenter les eectifs soit utiliser des

simulations (méthode de Monte Carlo) pour approcher la loi deDn sousH0. Cette dernière solution est disponible sous R avec la commande suivante :

> chisq.test(Nobs,p=p,simulate.p.value=TRUE)

Exercice 2.2. On a lancé 20 fois un dé et on a obtenu les résultats suivants 4,5,6,2,2,5,6,3,2,6,2,4,3,6,3,6,3,2,2,6.

1. Réaliser le test duχ2 an de vérier si le dé est équilibré. Comparer les résultats obtenus en utilisant l'approximation par la loi du χ2 et la méthode de Monte Carlo. On pourra utiliser la commande R table pour calculer le tableau d'eectif.

(a) Quelle méthode est la plus pertinente sur cet exemple ?

(b) Relancer plusieurs fois la commande qui permet de faire le test avec la méthode de Monte Carlo : pourquoi le résultat change-t-il à chaque fois ?

2. SimulerN = 1000fois 20 lancers d'un dé équilibré avec la fonction sample et calculer la statistique du test de la question précédente pour chacune de ces 1000 expériences simulées.

(a) Tracer un histogramme de la statistique de test simulée (avec l'option freq=FALSE pour que l'aire soit normalisée) et la densité de la loi duχ2 (fonction dchisq) sur le même graphique.

Discuter.

(b) Quel est le quantile empirique à 95% de la statistique de test simulée (on pourra utiliser la fonction quantile) ? Comparer à la statistique de test obtenue sur l'échantillon observé et discuter.

(c) Combien de simulations ont une statistique de test supérieure à celle obtenue sur l'échantillon observé ? En déduire une estimation de la p-value du test et comparer aux résultats donnés par la fonction chisq.test.

Prise en compte de paramètres estimés. On cherche souvent à tester l'adéquation à une loi qui dépend de paramètres inconnus (par exemple une loi de Poisson ou une loi binomiale). Si on estime les paramètres par maximum de vraisemblance, alors le degré de liberté de la loi asymptotique devient k−l−1avecl le nombre de paramètres à estimer (par exemple,l= 1pour une loi de Poisson).

Exercice 2.3. Une société d'assurances a comptabilisé, parmi ses 500 assurés, ceux qui ont déclaré un (ou plusieurs) sinistres au cours d'une année. Les résultats sont présentés dans le tableau suivant :

Sinistres déclarés 0 1 2 3 4 5

Nombre d'assurés 171 202 80 36 8 3

1. Peut-on admettre au niveau 5% que le nombre de sinistres déclarés par un assuré suit une loi de Poisson de paramètre 1 ?

2. Peut-on admettre au niveau 5% que le nombre de sinistres déclarés par un assuré suit une loi de Poisson ?

(5)

Exercice 2.4. (Baccalauréat ES Amérique du Nord, 4 juin 2009) Un pépiniériste a planté trois variétés de eurs dans une prairie de quelques hectares : des violettes, des primevères et des marguerites. Il se demande s'il peut considérer que sa prairie contient autant de eurs de chaque variété. Il cueille au hasard 500 eurs et obtient les résultats suivants :

Variétés Violettes Primevères Marguerites

Eectifs 179 133 188

1. Calculer les fréquencesfV d'une eur de variété Violette,fP d'une eur de variété Primevère et fM d'une eur de variété Marguerite. On donnera les valeurs décimales exactes.

2. On noted2obs= (

fV 1 3

)2

+ (

fP1 3

)2

+ (

fM 1 3

)2

.

Calculer 500d2obs. On donnera une valeur approchée arrondie au millième.

3. Le pépiniériste, ne voulant pas compter les quelques milliards de eurs de sa prairie, opère sur ordinateur en simulant le comptage, au hasard, de 500 eurs suivant la loi équirépartie. Il répète 2000 fois l'opération et calcule à chaque fois la valeur de 500d2obs. Ses résultats sont regroupés dans le tableau suivant :

Intervalle auquel [0 ; 0,5[ [0,5 ; 1[ [1 ; 1,5[ [1,5 ; 2[ [2 ; 2,5[ [2,5 ; 3[ [3 ; 3,5[ [3,5 ; 4[ [4 ; 4,5[ [4,5 ; 5[

appartient500d2obs

Nombre par intervalle 163 439 458 350 231 161 80 47 37 34

Par exemple : le nombre500d2obs apparaît 163 fois dans l'intervalle [0 ; 0,5[.

On note D9 le neuvième décile de cette série statistique.

Montrer que D9[2,5 ; 3[.

4. En argumentant soigneusement la réponse, dire si pour la série observée au début, on peut armer avec un risque inférieur à 10 % que la prairie est composée d'autant de eurs de chaque variété .

5. Question supplémentaire. Reprendre la question précédente en utilisant les méthodes vues dans le cours.

2.3 Test du χ

2

d'indépendance de deux variables

Soit un échantillon de taille npour lequel on observe 2 variables qualitatives (X1, ..., Xn)à valeurs dans{1, ..., k1}

(Y1, ..., Yn)à valeurs dans{1, ..., k2}

On va voir dans ce paragraphe un test permettant de tester l'indépendance des deux variables aléatoires.

Exemple. On veut savoir si le temps écoulé depuis la vaccination contre une maladie donnée a ou non une inuence sur le degré de gravité de la maladie lorsqu'elle apparaît. Pour simplier, nous ne

distinguons que trois degrés de gravité. Parmi les malades, nous comparons les vaccinés depuis moins de 25 ans et ceux vaccinés depuis plus de 25 ans :

Degre de gravit´´ e L´eg`ere M oyenne F orte T otal vaccin <25ans 43 120 324 714 vaccin >25ans 230 347 510 860

T otal 163 554 857 1574

Peut-on conclure qu'il existe une dépendance entre la date de vaccination et le degré de gravité de la maladie ?

(6)

Notons

An(i, j) =card{l∈ {1, ..., n}|Xl=i et Yl=j}

le nombre de fois que la modalité(i, j)est observée pouri= 1, ..., k1 etj= 1, ..., k2. On dispose donc d'un tableau de contingence de la forme :

j= 1 j=2 ... j=k2 Total

i= 1 An(1,1) An(1,2) . . . An(1, k2) An(1, .) i= 2 An(2,1) An(2,2) . . . An(2, k2) An(2, .)

... ... ... ... ... ...

i=k1 An(k1,1) An(k1,2) . . . An(k1, k2) An(k1, .) Total An(.,1) An(.,2) . . . An(., k2) n On souhaite tester l'hypothèse

H0 : les 2 échantillons sont indépendants contre l'hypothèse alternative

H1 : les 2 échantillons ne sont pas indépendants

Notons πi=P[Xl=i],πj=P[Yl=j]etπi,j=P[Xl=i, Yl=j]pouri= 1, ..., k1 etj= 1, ..., k2. D'après la proposition 1,

k1

i=1 k2

j=1

(An(i, j)−nπi,j)2

i,j ≈χ2k1 pour n"grand" aveck=k1k2.

H0 est vraie si et seulement siπi,j=πiπj (i, j)∈ {1, ..., k1} × {1, ..., k2}. Sous l'hypothèseH0, on a

donc ∑k1

i=1 k2

j=1

(An(i, j)−nπiπj)2

iπj ≈χ2k1 pour n"grand".

On estime

πi parFn(i) =An(i, .)/navecAn(i, .) =∑k2

j=1An(i, j) =card{l∈ {1, ..., n}|Xl=i} πj parFn(j) =An(., j)/navecAn(., j) =∑k1

i=1An(i, j) =card{l∈ {1, ..., n}|Yl=j} La statistique du test est

Dn =

k1

i=1 k2

j=1

(An(i, j)An(i,.)Ann(.,j))2

An(i,.)An(.,j) n

On a estimék1+k22paramètres (puisquep1+...+pk= 1) et on en "déduit" que pour ngrand Dn≈χ2(k

11)(k21) puisquek−1(k1+k22) = (k11)(k21). On vérie aisément que

Dn =n

k1

i=1 k2

j=1

(Fn(i, j)−Fn(i)Fn(j))2 Fn(i)Fn(j)

et donc Dn s'interprète comme une distance entre les fréquences observées et celles attendues sous l'hypothèse d'indépendance.

La règle de décision est la suivante : on accepteH0si et seulement siDn≤χ2(k

11)(k21),1α.

(7)

Utilisation de R

Les commandes R ci-dessous permettent de réaliser le test d'indépendance duχ2 sur l'exemple donné au début du paragraphe.

> tab=matrix(c(43,120,324,230,347,510),nrow=2)

> chisq.test(tab)

Pearson's Chi-squared test data: tab

X-squared = 70.389, df = 2, p-value = 5.19e-16

Conclusion : on ne peut pas supposer que la date de vaccination et la gravité de la maladie sont indépendantes !

Exercice 2.5. Une compagnie d'assurance veut savoir si il existe une relation entre l'âge des assurés et la fréquence des sinistres an de réaliser la tarication d'un groupe d'assuré. Elle dispose des données suivantes :

Nombre de sinistres 0 1 >1 assuré <25 ans 805 230 115 assuré entre 25 et 60 ans 2086 391 130 assuré >60 ans 511 182 36

Que peut en conclure la compagnie d'assurance ? On réalisera un test duχ2 en utilisant les formules données dans le cours et on vériera qu'on obtient la même statistique de test et la même p-value que celles qui sont données par la fonction chisq.test.

3 Test d'adéquation pour les lois continues

Dans ce paragraphe (X1, ..., Xn)désigne un échantillon aléatoire i.i.d. à valeurs dansR(on parle alors de loi continue par opposition aux lois discrètes du paragraphe précédent). On noteraF(x) =P[Xi≤x]

la fonction de répartition de la loi l'échantillon.

L'objectif de ce chapitre est de proposer des méthodes permettant de vérier une hypothèse de la forme H0:F=F0contre H1:F ̸=F0

avecF0 une fonction de répartition donnée (par exemple celle de la loiN(0,1)). On peut utiliser le test duχ2 après avoir découpé le support deXi en classes mais on préfère généralement utiliser le test de Kolmogorov-Smirnov. Avant de réaliser le test, on peut considérer des outils graphiques.

3.1 Outils graphiques pour valider l'adéquation d'une loi

3.1.1 Fonction de répartition empirique Un estimateur naturel deF(x)est donné par

Fˆn(x) =card{i∈ {1, ..., n}|Xi≤x}

n = 1

n

n i=1

1l(Xi≤x)

Fˆn est appelée fonction de répartition empirique. D'après la loi des grands nombres, sinest grand on doit avoirFˆn(x)≈F(x)et donc siH0 est vraieFˆn(x)≈Fˆ0(x)(cf proposition 2). On peut alors tracer Fˆn et F0 sur un même graphique.

(8)

Exercice 3.1. On considère l'échantillon suivant :

61; 14; 99; 56; 66; 77; 74; 97; 82; 98; 8; 41.

1. Sans utiliser R, tracer la fonction de répartition empirique et la fonction de répartition de la loi uniforme sur [0,100](notée U([0,100])dans la suite) sur un même graphique.

2. Recommencer en utilisant R. On pourra utiliser la fonction ecdf.

Exercice 3.2. En utilisant R, simuler un échantillon de taille 1000 d'une loiN(0,1)et tracer sur un même graphique la fonction de répartition empirique de l'échantillon simulé et la fonction de répartition de la loiN(0,1).

3.1.2 Quantiles empiriques

La fonction de répartition F est croissante. Lorsqu'elle est continue et strictement croissante (c'est le cas pour les lois usuelles...), elle est inversible et la fonction quantile est l'inverse de la fonction de répartition empirique. Dans le cas général, la fonction quantile est dénie comme l'inverse généralisé de F

Q(p) =inf{x∈R|F(x)≥p}

pour p∈]0,1]. On peut de la même manière dénir la fonction quantile empiriqueQˆn comme l'inverse généralisé de Fˆn. Un QQ-plot (pour quantile-quantile) est un graphique qui permet de comparer les quantiles théoriques de la loi sousH0aux quantiles empiriques. C'est sans doute le graphique le plus classique pour comparer deux distributions.

Exercice 3.3. On considère à nouveau l'échantillon suivant :

61; 14; 99; 56; 66; 77; 74; 97; 82; 98; 8; 41.

1. Sans utiliser R, tracer la fonction quantile empirique associée à cet échantillon ainsi que la fonction quantile de la loiU([0,100]) .

2. Le Q-Q plot est généralement obtenu en comparant les quantiles d'ordrepk =kn0.5 =2k2n1 pour k∈ {1, ..., n}. Compléter le tableau suivant :

Ordre du quantile (pk) 1/24 3/24 ... 21/24 23/24 Quantile empirique (Qˆn(pk)) ...

Quantile de la loiU[0,100](Q(pk)) ...

Tracer le nuage de point(Q(pk),Qˆn(pk))k∈{1,...,n}.

3. Refaire la gure précédente avec R (on pourra utiliser la fonction quantile).

4. La fonction qqplot de R permet de comparer seulement les quantiles empiriques de deux échantillons. Quand on veut comparer rapidement les quantiles empiriques d'un échantillon à ceux d'une loi théorique, on peut simuler un grand échantillon de la loi théorique. Taper les commandes suivantes sous R et vérier que vous retrouvez un graphique similaire au précédent :

> y = runif(1000000, min = 0, max = 100)

> qqplot(y,x)

avec xun vecteur qui contient les12 valeurs observées.

Exercice 3.4. En utilisant R, simuler un échantillon xde taille 1000 d'une loiN(0,1).

1. Réaliser un qqplot permettant de comparer les quantiles empiriques dexà ceux d'une loiN(0,1). 2. Réaliser un qqplot permettant de comparer les quantiles empiriques dexà ceux d'une loi

N(5,10).

3. Retrouver par le calcul que les quantiles des loisN(0,1) etN(µ, σ)sont liés par une relation linéaire. Quelle est la pente de la droite ? Quelle est l'intercept de la droite ?

4. Il existe des commandes spéciques pour réaliser un QQ-plot dans le cas gaussien ("droite de Henry"). Taper les commandes suivantes :

> qqnorm(x)

> qqline(x)

(9)

3.1.3 Densité

Histogramme. Dans ce paragraphe on supposera que la loi de Xi admet une densitéf par rapport à la mesure de Lebesgue. L'histogramme est l'outil de base pour estimer la densité. Pour réaliser un histogramme, on découpe le support de la variable aléatoire ennintervalles en utilisant une subdivision, supposée régulière ici pour simplier la présentation,a0< a1< ... < an telle que ak+1−ak =hpour k∈ {1, ..., n}. On représente ensuite le nombre de points dans chaque intervalle correctement normalisé pour que l'aire totale des rectangles soit égale à 1. La hauteur du rectangle centré enx=ak+12+ak est alors

fˆn(x) = 1 nh

n i=1

1l(−h/2≤x−Xi ≤h/2)

= 1

nh

n i=1

g(x−Xi

h ) (3.1)

avecg(x) =1l(1/2≥x≥1/2)la densité de la loi uniforme sur [1/2,1/2]. On vérie facilement que

fn(x)dx= 1.

Si nest grand, alors d'après la loi des grands nombres on doit avoirfˆn(x) E[1l(h/2hxXih/2) avec 1

hE[1l(−h/2≤x−Xi≤h/2)] = 1/h(F(x+h/2)−F(x−h/2))≈F(x) =f(x)

sihest petit. Pour que l'histogramme soit un bon estimateur de la densitéf il faut donc que le nombre de points dans l'intervalle[x−h/2, x+h/2]soit raisonnablement grand et en même temps que la largeurhdes rectangles soit petite. Ceci n'est en général pas réalisable en pratique : il est donc dicile d'obtenir des estimateurs ables de la densitéf.

Estimateurs à noyau. L'expression (3.1) suggère deux généralisations possibles de l'histogramme pour estimer la densité :

Les histogrammes conduisent à un estimateur def sous la forme d'une fonction en escalier. On peut obtenir un estimateur plus lisse en traçant directement la fonctionx7→fˆn(x)avecfˆndénie par 3.1. Pour chaque pointxon calcule alors la densité d'observations dans un voisinage dex. On peut aussi remplacer la densitégde la loi uniforme par une autre densité pour gagner en

régularité.

Exercice 3.5. En utilisant R, simuler un échantillon xde taille 1000 d'une loiN(0,1).

1. Tracer sur un même graphique un histogramme de l'échantillon simulé (fonction hist) et la densité de la loi N(0,1).

2. Rajouter un estimateur à noyau de la densité (fonction density sous R). Quelle densitég est utilisée par défaut par R ?

Exercice 3.6. Simuler un échantillon de taille n= 1000d'une loi de Student àk= 5degrés de liberté.

Diviser la fenêtre graphique en 3 (split.screen) et comparer successivement les fonctions de répartition (à gauche), les fonctions quantiles (Q-Q plot au milieu) et les densités (à droite) de l'échantillon simulé et de la loi N(0,1). Recommencer avec n=50. Discuter les résultats obtenus.

3.2 Test de Kolmogorov-Smirnov pour les lois continues

La proposition suivante permet de justier la construction du test de Kolmogorov-Smirnov. Elle montre que la fonction de répartition a des bonnes propriétés de convergence lorsquen→ ∞.

Proposition 2. NotonsDn=supx∈R|Fˆn(x)−F(x)|

1. (Un théorème de Glivenko-Cantelli)Dn converge presque sûrement vers 0.

2. Si F est continue, alors les variables F(Xi) sont de loi uniforme sur [0 ; 1]. Par conséquent la loi deDn ne dépend pas de F.

(10)

3. (Un théorème de Kolmogorov) Si F est continue, alors on a : limn→∞P[√

nDn < y] =K(y) =

k∈Z

(1)kexp(2k2y2) (3.2) Démonstration. Les points 1 et 3 sont admis (des éléments de la preuve sont donnés dans l'exercice 3.7).

Montrons le point 2 sous l'hypothèse supplémentaire queF est inversible. PosonsUi=F(Xi).Ui suit une loi uniforme car

P[F(Xi)≤u] =P[Xi≤F1(u)] =F(F1(u)) =u.

On en déduit, en utilisant queF est une bijection strictement croissante , que Dn = supx∈R

n i=1

1l (Xi≤x)−F(x)

=supu[0,1]

n i=1

1l (Ui≤u)−u . Le terme de droite ne dépend plus deF et donc la loi deDn ne dépend pas de la loi deXi. La statistique du test de Kolmogorov-Smirnov estDn =supx∈R|Fˆn(x)−F0(x)|. D'après la

Proposition 2, la loi de Dn sousH0 ne dépend pas deF (statistique "libre en loi") et on s'attend à ce queDn soit petit sousH0. La règle de décision est donc la suivante : on accepte doncH0 si et seulement si Dn≤dn,1α avecdn,1αle quantile d'ordre1−αde la loi deDn sousH0.

Remarque. On a supposée queF0 est connue et ne dépend pas de paramètre inconnu : le test du χ2 permet de gérer l'estimation de paramètres inconnus mais pas le test de Kolmogorov-Smirnov.

Lorsque nest grand (n≥100), on peut utiliser (3.2) pour calculer une valeur approchée de dn,1α. Sinon on peut utiliser une table ou R (fonction ks.test).

Exercice 3.7. Soit (X1, ..., Xn)n variables aléatoires i.i.d. de fonction de répartitionF etFn la fonction de répartition empirique associée. Pourx∈Rxé,

1. Calculer l'espérance et la variance deFn(x). 2. Quelle est la loi denFn(x)?

3. Etudier les propriétés asymptotiques (convergence, normalité asymptotique) deFn(x) lorsque n→ ∞.

4. On suppose de plus dans cette question queXi suit une loi uniforme sur l'intervalle[0,1]. Soit x1< x2... < xkRk et

Bn=



Fn(x1) ...

Fn(xk)

.

Calculer l'espérance et la matrice de variance-covariance du vecteur aléatoireBn. Exercice 3.8. On considère à nouveau l'échantillon suivant

61; 14; 99; 56; 66; 77; 74; 97; 82; 98; 8; 41 et on veut tester si il provient d'une loiU([0,100]).

1. On vériera sur le graphique de l'exercice 3.1 que

Dn=supx∈R|Fˆn(x)−F(x)|=maxi∈N(max(|Fˆn(Xi)−F(Xi)|,|Fˆn(Xi)−F(Xi)|)) et on admettra ce résultat dans la suite. En déduire la valeur de la statistique dobs du test de Kolmogorv-Smirnov.

2. Simuler 1000 échantillons de taille 12 selon une loiU([0,100]) et calculer la statistique du test de Kolmogorv-Smirnov pour chacun de ces 1000 échantillons. Quelle est la proportion d'échantillons simulés pour lesquels la statistique de test a une valeur supérieure à dobs? Conclusion ?

3. Recommencer la question précédente en remplaçant la loiU([0,100]) par la loiU([0,1]) puis N(0,1). Discuter.

4. Réaliser le test avec la fonction R ks.test. Discuter.

5. Réaliser un test duχ2 an de vérier si l'échantillon provient d'une loiU([0,100]).

Références

Documents relatifs

Soit X la variable aléatoire qui compte le nombre d’essais nécessaires jusqu’au premier succès.. Soit X la variable aléatoire qui suit la loi géométrique de paramètre p..

Pour calculer p( Z= k ) avec Z qui suit une loi normale, il faut utiliser Ncd, avec Lower = k et Upper

La durée d’attente en secondes à la caisse d’un supermarché est une variable aléatoire Y qui suit la loi exponentielle de paramètre 0,01….. • La fabrique de cylindres (Bac

[r]

On dispose d’une urne contenant un très grand nombre de boules rouges et bleues. On ignore quelle est la proportion

En déduire que X n converge presque sûrement vers

Concrètement, on divise l'effectif par 10 pour avoir le nombre d'unités d'aire puis on divise ce nombre par la largeur de l'amplitude de chaque classe en cm (ici 1 cm pour 20 unités

On