Outils Statistiques - M2 Statistique

(1)

Outils Statistiques - M2 Statistique

Etienne Birmelé

Automne 2020

(2)

(3)

Table des matières

1 Bootstrap 5

1.1 Principe . . . . 5

1.2 Echantillons et estimateurs bootstrap . . . . 7

1.3 Intervalles de confiance . . . . 11

1.4 Fondements théoriques . . . . 12

1.5 Tests à l’aide de bootstrap . . . . 14

1.6 Sources . . . . 16

2 Algorithme EM 17 2.1 L’exemple du modèle de mélange gaussien . . . . 17

2.2 L’algorithme EM . . . . 19

2.3 Algorithme et preuve de convergence . . . . 21

3 TD1 - Bootstrap 25 3.1 Exercice 1 - Implémentation et illustration des deux approximations 25 3.2 Exercice 2 - Bootstrap paramétrique vs bootstrap non paramétrique 26 3.3 Exercice 3 - Comparaison des espérances de vie entre fumeurs et non-fumeurs . . . . 26

3.4 Bootstrap et régression linéaire . . . . 27

3.5 Majoration de la première erreur du bootstrap . . . . 27

4 TD2 - Algorithme EM 29 4.1 Exercice 1 - Mélange gaussien à deux composantes . . . . 29

4.2 Exercice 1bis - Mélange de gausiennes à K composantes . . . . . 29

4.3 Exercice 2 - Algorithme des k-means . . . . 30

4.4 Exercice 3 - Mélange de loi exponentielles . . . . 30

4.5 Exercice 4 - Détection d’une rupture dans un processus de comptage 30 4.6 Exercice 5 - Estimation en génétique. . . . 31

4.7 Exercice 6 - Estimation en épidémiologie. . . . 31

4.8 Exercice 7 - Etude démographique. . . . 32

5 TD1 - Bootstrap - Correction 33

5.1 Exercice 1 - Implémentation et illustration des deux approximations 33 5.2 Exercice 2 - Bootstrap paramétrique vs bootstrap non paramétrique 37

3

(4)

5.3 Exercice 3 - Comparaison des espérances de vie entre fumeurs et

non-fumeurs . . . . 40

5.4 Bootstrap et régression linéaire . . . . 42

5.5 Majoration de la première erreur du bootstrap . . . . 47

6 TD2 - Algorithme EM - Correction 51 6.1 Exercice 1 - Mélange gaussien à deux composantes . . . . 51

6.2 Exercice 1bis - Mélange de gausiennes à K composantes . . . . . 55

6.3 Exercice 2 - Algorithme des k-means . . . . 56

6.4 Exercice 3 - Mélange de loi exponentielles . . . . 57

6.5 Exercice 4 - Détection d’une rupture dans un processus de comptage 60 6.6 Exercice 5 - Estimation en génétique. . . . 63

6.7 Exercice 6 - Estimation en épidémiologie. . . . 66

6.8 Exercice 7 - Etude démographique. . . . 69

(5)

Chapitre 1

Bootstrap

1.1 Principe

L’estimation statistique consiste à vouloir déterminer la valeur d’une statistique d’intérêt (moyenne, variance, quantile …) pour une loi inconnue. Les quantités mathématiques en jeu sont les suivantes

— une loi inconnue 𝑃 . On note 𝒳 = (𝑋

₁

, … , 𝑋

_𝑛

) le vecteur aléatoire contenant 𝑛 tirages i.i.d. selon la loi 𝐹 .

— une statistique d’intérêt 𝜃 qui dépend de 𝑃 , et que l’on cherche à estimer.

— une statistique 𝑇 (𝒳) qui va servir à estimer 𝜃, et qu’on appelle esti- mateur de 𝜃.

La seule connaissance que l’on peut extraire directement des données est un échantillon, c’est-à-dire une réalisation (𝑥

₁

, … , 𝑥

_𝑛

) de 𝒳.

La valeur prise par 𝑇 en l’échantillon recueilli est appelé estimation de 𝜃 et noté

̂ 𝜃

̂ 𝜃 = 𝑇 (𝑥

₁

, … , 𝑥

_𝑛

)

Cette valeur n’est cependant qu’une approximation de la vraie valeur d’intérêt 𝜃. Pour avoir une idée de l’erreur commise (via des intervalles de confiance) ou pour comparer des estimateurs entre eux, il faut être capable d’étudier les propriétés de 𝑇 : son biais, sa variance, l’erreur quadratique moyenne, sa fonction de répartition, etc.

Cependant, comme 𝑇 dépend de 𝑃 qui est inconnue, il est impossible d’accé- der à sa loi de façon exacte. Il est par conséquent nécessaire de recourir à des hypothèses ou des approximations.

5

(6)

1.1.1 Option 1 : Hypothèses sur la forme de la loi

Une manière de contourner le problème peut être de faire une hypothèse sur la forme de la loi 𝑃 . Une approche courante consiste à suppose qu’elle fait partie d’un famille paramétrée (loi normale, exponentielle, de Poisson, etc), et d’estimer les paramètres nécessaires (𝜃 en fait souvent partie en pratique).

1.1.1.0.1 Exemple : Supposons qu’on cherche à estimer l’espérance d’une loi inconnue via l’estimateur de la moyenne, et qu’il est raisonnable de supposer que la variable d’intérêt suit une loi normale. La loi des grands nombres dit alors que l’estimateur est consistant et le théorème central limite dit que 𝜃 − 𝜃 ̂ suit une loi normale, ce qui permet d’accéder à la vitesse de convergence et des intervalles de confiance.

Dans ce cas, qui est la manière historique de faire de l’estimation, une approxi- mation est faite via l’hypothèse d’appartenance de la loi inconnue à une famille paramétrée. Une fois cette hypothèse faite, on peut chercher à déterminer théo- riquement les propriétés de l’estimateur dans ce cadre.

Limitations : Cette approche a deux limitations.

— La crédibilité de l’hypothèse de forme (elle peut être levée dans certains cas, par exemple pour estimer l’espérance puisque le TCL est valable pour toute forme de la vraie loi)

— La quantité à estimer : si on cherche à estimer la médiane plutôt que la moyenne ou des quantités dépendant de 𝐹 de façon complexe, l’étude de leurs lois peut se révéler difficile voire impossible, même sous une hypothèse de forme.

1.1.2 Option 2 : Accès illimité (ou presque) aux données

Une manière différente de résoudre le problème serait d’avoir un très grand nombre 𝑚 d’estimations indépendantes, en d’autres termes un échantillon ( ̂ 𝜃

₁

, … , ̂ 𝜃

_𝐵

) d’estimations.

Une approximation possible de la loi de 𝑇 (𝒳) est alors la loi empirique d’un tel échantillon quand 𝐵 est grand.

Limitations :

— Cette approche est en général impossible tout simplement en raison du nombre limité de données. En effet, il faudrait ici 𝑛 × 𝐵 mesures i.i.d selon la loi inconnue, avec 𝑛 et 𝐵 les plus grands possibles.

— Peut-on borner l’erreur faite en fonction de 𝐵 et 𝑛 ?

(7)

1.2. ECHANTILLONS ET ESTIMATEURS BOOTSTRAP 7

1.1.3 Option 3 : Bootstrap

L’explosion en termes de capacité de calcul ayant eu lieu les dernières décennies permet de faire un nombre très important de tirages i.i.d selon toute loi simu- lable. Cela a ouvert la voie à une approche appelée Bootstrap qui se déroule en deux étapes :

1. On approxime la loi inconnue 𝑃 par la loi empirique 𝑃

_𝑛

de l’échantillon.

2. On génère un grand nombre 𝐵 d’échantillons suivant 𝑃

_𝑛

, appelés échan- tillons bootstrap. On obtient autant d’estimations de la grandeur d’inté- rêt, et leur loi empirique est utilisée pour approximer la loi de 𝑇 . En d’autres termes, on applique l’idée de l’option 2 en créant les données par simulation. Le prix à payer est qu’on simule suivant la loi 𝑃

_𝑛

plutôt que suivant la loi 𝑃.

Avantages :

— pas d’hypothèse sur le type de la loi

— toute estimateur 𝑇 peut être traité, quel que soit sa complexité Limitations :

— Cette approche cumule deux approximations successives : remplacer 𝑃 par 𝑃

_𝑛

puis remplacer la loi de 𝑇 sous 𝑃

_𝑛

par la loi empirique de 𝐵 tirages.

— Peut-on borner l’erreur faite en fonction de 𝐵 et 𝑛 ?

1.2 Echantillons et estimateurs bootstrap

1.2.1 Produire des échantillons bootstrap

La procédure classique, intoduite par Efron [] correspond à celle décrite dans le chapitre précédent, à savoir qu’un grand nombre 𝐵 d’échantillons sont tirés suivant la loi empirique de l’échantillon 𝒳 = (𝑋

₁

, … , 𝑋

_𝑛

).

Or tirer suivant cette loi revient à tirer uniformément un élément de l’échantillon.

Le principe du bootstrap peut donc s’écrire simplement : Pour i de 1 à B :

Tirer 𝑛 fois avec remise dans 𝒳 pour obtenir un échantillon bootstrap 𝑋

^∗𝑖

=

(𝑋

₁^∗𝑖

, … , 𝑋

_𝑛^∗𝑖

)

(8)

Obtenir une estimation bootstrap 𝜃

^∗𝑖

̂ = 𝑇 (𝑋

^∗𝑖

) Remarque :

En pratique, l’échantillon 𝒳 est une observation 𝑥, et ne comporte plus de caractère aléatoire. Le processus de tirage avec remise en réintroduit, si bien que les 𝜃

^∗𝑖

̂ sont différents les uns des autres et vont permettre d’appréhender la variabilité de l’estimation

Exemple :

On s’intéresse au salaire médian des étudiants un an après la validation de leur diplôme, en se basant sur les douze personnes ayant répondu au questionnaire x = c(2200,1600,2400,1800,900,1600,3300,2100,1700,1200,2000,1600) median(x)

## [1] 1750

Un échantillon bootstrap est obtenu en effectuant des tirages avec remise xboot = sample(x,length(x),replace=TRUE)

xboot

## [1] 1600 1600 2400 2200 1600 1700 900 1600 2100 2100 2400 1800 et il est aisé de produire ainsi un grand nombre d’échantillons et de déterminer les estimations correspondantes

median_boot <- c() for (i in 1:1000){

xboot = sample(x,length(x),replace=TRUE) median_boot <- c(median_boot,median(xboot)) }

boxplot(median_boot)

1200 1600 2000 2400

(9)

1.2. ECHANTILLONS ET ESTIMATEURS BOOTSTRAP 9 Variante : Le bootstrap paramétrique :

Dans le cas où il semble raisonnable de supposer une forme de loi particulière pour 𝑃, il est possible d’incorporer cette hypothèse dans le processus du boots- trap.

Dans ce cas, on tire les échantillons bootstrap suivant la loi paramétrique de paramètre 𝜃. ̂

Exemple :

On considère le nombre annuel de morts par accident de la route de 2010 à 2019.

Sous l’hypothèse (discutable) que l’échantillon est i.i.d, on peut supposer qu’il suit une loi de Poisson (modélisation des évènements rares). L’estimateur 𝜆 ̂ du paramètre de la loi est alors simplement celui de la moyenne.

x=c(3994,3963,3653,3250,3384,3464,3477,3448,3488,3498) lambda = mean(x)

lambda

## [1] 3561.9

Tirer un échantillon bootstrap revient alors à tirer un échantillon de même taille suivant la loi de Poisson de paramètre 𝜆 ̂

median_boot <- c() for (i in 1:1000){

xboot = rpois(length(x),lambda=lambda) median_boot <- c(median_boot,median(xboot)) }

boxplot(median_boot)

3500 3550 3600 3650

(10)

1.2.2 Estimateurs bootstrap

On s’intéresse à un paramètre inconnu 𝜃 dans un monde réel inaccessible. Le principe du bootstrap est de remplacer chaque quantité d’intérêt par son équi- valent dans le monde bootstrap, où tout est connu ou approximable.

Monde réel

— loi 𝑃 inconnue

— échantillon 𝑋 = (𝑋

₁

, … , 𝑋

_𝑛

)

— estimateur 𝜃 = 𝑇 (𝑋) ̂

— loi de 𝜃 − 𝜃 ̂ inconnue en l’absence d’hypothèses Monde du bootstrap

— loi 𝑃

_𝑛

connue : première approximation

— échantillons 𝒳

^∗_𝑏

= (𝑋

_𝑏,1^∗

, … , 𝑋

^∗_𝑏,𝑛

)

— estimateurs 𝜃

^∗_𝑏

̂ = 𝑇 (𝒳

^∗_𝑏

)

— loi de 𝜃

^∗

̂ − ̂ 𝜃 approximable car 𝜃 ̂ est connu et la loi de 𝜃

^∗

̂ peut être appro- chée par la loi empirique de ( ̂ 𝜃

^∗₁

, … , ̂ 𝜃

^∗_𝐵

) : deuxième approximation.

La liste ci-dessous donne les exemples les plus courants d’estimations bootstrap de propriétés liées à un estimateur, mais n’est pas exhaustive.

1.2.2.1 Estimation de la loi de 𝜃 ̂

Monde réel : on veut estimer 𝐺(𝑡) = P( ̂ 𝜃 ≤ 𝑡) Monde bootstrap

— Première approximation : on approxime 𝐺(𝑡) par 𝐺

^∗_𝑛

(𝑡) = P( ̂ 𝜃

^∗

≤ 𝑡)

— Deuxième approximation : on approxime 𝐺

^∗_𝑛

(𝑡) par 𝐺

^∗_𝑛,𝐵

(𝑡) = 1

𝐵

∑

𝑏=1

1

𝜃^∗_𝑏̂≤𝑡

1.2.2.2 Estimation du biais de 𝜃 ̂ Monde réel : on veut estimer E

_𝑃

( ̂ 𝜃) − 𝜃 Monde bootstrap

— Première approximation : on l’approxime par E

_𝑃

𝑛

( ̂ 𝜃

^∗

) − ̂ 𝜃

— Deuxième approximation : on approxime cette quantité par 1

𝐵

∑

𝑖=1

̂ 𝜃

^∗_𝑏

− ̂ 𝜃

(11)

1.3. INTERVALLES DE CONFIANCE 11 L’estimateur non biaisé est obtenu en retranchant l’estimation du biais à l’esti- mateur initial. On obtient donc l’estimateur

̂ 𝜃 − ( 1 𝐵

𝐵

∑

𝑏=1

̂ 𝜃

^∗_𝑏

− ̂ 𝜃) = 2 ̂ 𝜃 − 1 𝐵

𝐵

∑

𝑏=1

̂ 𝜃

^∗_𝑏

1.2.2.3 Estimation de la variance de 𝜃 ̂ Monde réel : on veut estimer E

_𝑃

(( ̂ 𝜃 − E

_𝑃

𝜃) ̂

²

) Monde bootstrap

— Première approximation : on l’approxime par E

_𝑃

𝑛

(( ̂ 𝜃

^∗

− E

_𝑃

𝑛

̂ 𝜃)

²

)

— Deuxième approximation : on approxime cette quantité par 1

𝐵

∑

𝑏=1

( ̂ 𝜃

^∗_𝑏

− 1 𝐵

𝐵

∑

𝑐=1

̂ 𝜃

^∗_𝑐

)

²

1.3 Intervalles de confiance

L’utilisation sans doute la plus fréquente du bootstrap est la production d’inter- valles de confiance. En effet, ces intervalles sont cruciaux dans les applications pratiques de l’estimation et le bootstrap permet d’en générer de façon très simple quelque soit l’estimateur. Les assurances théoriques sur la qualité de l’approxi- mation de l’intervalle réel par l’intervalle bootstrap sont cependant dépendantes du cadre d’application et de la méthode utilisée. Celles-ci sont présentées par ordre croissant de l’erreur entre le taux nominal et le taux réel.

Dans ce paragraphe, on note

̂ 𝜃

^∗₍₁₎

≤ … ≤ ̂ 𝜃

^∗_(𝐵)

le vecteur des 𝐵 estimations bootstrap ordonnées par ordre croissant

1.3.1 IC des percentiles

La manière la plus simple de réaliser un intervalle de confiance est de négliger la première approximation et de considérer que les lois de 𝜃 ̂ et 𝜃

^∗

̂ sont identiques.

L’intervalle de confiance empirique au niveau 1 − 𝛼 est alors

𝐼𝐶

_{𝑝𝑒𝑟𝑐}^∗

(1 − 𝛼) = [ ̂ 𝜃

^∗_{⌈𝐵𝛼/2⌉}

, ̂ 𝜃

^∗_{⌈𝐵(1−𝛼/2)⌉}

]

(12)

1.3.2 IC classique

Une alternative est de considérer la loi de l’erreur 𝜃 − 𝜃, dont les réalisations ̂ bootstrap sont les 𝜃

^∗_𝑏

̂ − ̂ 𝜃. Un intervalle de confiance de l’erreur commise est alors

[ ̂ 𝜃

^∗_{⌈𝐵𝛼/2⌉}

− ̂ 𝜃, ̂ 𝜃

^∗_{⌈𝐵(1−𝛼/2)⌉}

− ̂ 𝜃]

ce qui donne comme intervalle de confiance pour le paramètre 𝐼𝐶

^∗

(1 − 𝛼) = [2 ̂ 𝜃 − ̂ 𝜃

_{⌈𝐵(1−𝛼/2)⌉}^∗

, 2 ̂ 𝜃 − ̂ 𝜃

_{⌈𝐵𝛼/2⌉}^∗

]

1.3.3 IC du t-Bootstrap ou bootstrap studentisé

Une dernière alternative est de considérer la loi de la statistique 𝑡 (dite de Student)

𝑆 = 𝜃 − 𝜃 ̂

̂

𝜎/ √ 𝑛 dont les réalisations bootstrap sont les

𝑆

_𝑏^∗

= 𝜃

_𝑏^∗

̂ − ̂ 𝜃

̂ 𝜎(𝒳

^∗_𝑏

)/ √ 𝑛

Dans l’hypothèse où l’on connait une estimation 𝜎 ̂ de l’écart-type de 𝜃, on peut alors considérer l’intervalle

𝐼𝐶

_𝑡^∗

(1 − 𝛼) = [ ̂ 𝜃 − 𝜎 ̂

√ 𝑛 𝑆

_{⌈𝐵(1−𝛼/2)⌉}^∗

, ̂ 𝜃 − 𝜎 ̂

√ 𝑛 𝑆

_{⌈𝐵𝛼/2⌉}^∗

]

1.4 Fondements théoriques

1.4.1 Première approximation

Une étude de l’erreur faite lors de la première approximation des étapes du bootstrap est faite dans (Hall, 2013). Elle s’appuie sur des extensions d’Edge- worth, qui sont des sortes de développement limités appliqués aux distributions en fonction de la taille 𝑛 de l’échantillon.

Le résultat le plus remarquable est que si 𝜃 ̂ est asymptotiquement normal, càd si

𝑆 = 𝜃 − 𝜃 ̂ 𝜎

→ 𝒩(0, 1)

ℒ

il existe un polynôme 𝑝 tel que

(13)

1.4. FONDEMENTS THÉORIQUES 13

P(𝑆 ≤ 𝑥) = Φ(𝑥) + 1

√ 𝑛 𝑝(𝑥)𝜙(𝑥) + 𝒪( 1 𝑛 )

où Φ et 𝜙 désignent la f.d.r et la densité de la loi normale centrée réduite.

De même, la version bootstrap

𝑆

^∗

= 𝜃

^∗

̂ − ̂ 𝜃

̂

𝜎 vérifie, pour un certain polynôme 𝑝

^∗

que

P(𝑆

^∗

≤ 𝑥) = Φ(𝑥) + 1

√ 𝑛 𝑝

^∗

(𝑥)𝜙(𝑥) + 𝒪( 1 𝑛 ) De plus, 𝑝 − 𝑝

^∗

= 𝒪(

^√¹_𝑛

).

Il en découle que dans ce cas,

P(𝑆 ≤ 𝑥) − P(𝑆

^∗

≤ 𝑥) = 𝒪( 1 𝑛 )

L’approximation bootstrap de 𝑆 est donc asymptotiquement meilleure que l’ap- proximation normale habituellement faite à l’aide du TCL.

Exemples :

— Cela fonctionne pour la moyenne ou la médiane

— Cela ne fonctionne pas pour le maximum de l’échantillon

1.4.2 Deuxième approximation

Des résultats de Dvoretsky-Kieffer-Wolfowitz (Dvoretzky et al., 1956) et Massart (Massart, 1990) impliquent la borne suivante entre une loi théorique et celle d’un échantillon tiré suivant cette loi :

Théorème 1. DKW 56 Soit 𝑍

₁

, … , 𝑍

_𝐵

un échantillon tiré suivant une loi de f.d.r 𝐹 et 𝐹

_𝐵

la f.d.r empirique de l’échantillon. Alors

P(sup

𝑡∈R

|𝐹

_𝐵

(𝑡) − 𝐹 (𝑡| > 𝜖)) ≤ 2𝑒

^−2𝜖²^𝐵

Ce résultat appliqué à la loi 𝑃

_𝑛

de l’échantillon observé et aux échantillons bootstrap permet de borner l’erreur faite lors de la deuxième approximation.

Remarque : Comme attendu, on voit que l’erreur dûe à la deuxième approxi-

mation ne dépend que de 𝐵, c’est-à-dire du nombre d’échantillons bootstrap

(14)

générés. A condition de bénéficier de la puissance de calcul nécessaire, on peut donc la réduire autant que désiré.

Cependant, la première erreur dépend au contraire de 𝑛, qui est la taille de l’échantillon initial. Générer un grand nombre d’échatillons bootstrap n’influera pas sur cette erreur. On retrouve le comportement ‘habituel’, à savoir que des observations plus nombreuses amènent une meilleure précision des estimations faites.

1.5 Tests à l’aide de bootstrap

Pour clore ce chapitre, citons une autre application possible du bootstrap, qui est le fait de pouvoir mener des tests statistiques sans les hypothèses requises pour l’utilisation des tests standards.

1.5.1 Principe

Un test statistique repose sur : 1. le choix d’un statistique de test

2. le calcul de cette statistique sur l’échantillon observé 3. la détermination de la loi de cette statistique sous 𝐻

₀

.

Les points 2. et 3. permettent alors de déterminer la p-valeur, qui est la pro- babilité sous la loi du point 3. d’observer un résultat plus surprenant que la statistique observée du point 2.

Dans l’approche classique des tests, on fait des hypothèses sur la loi des observa- tions permettant un calcul théorique de la loi de la statistique sous 𝐻

₀

et donc de la p-valeur.

Une possibilité alternative est de générer, à partir des échantillons, des échan- tillons bootstrap qui vérifient 𝐻

₀

et de déterminer la valeur de la statistique pour chacun de ces échantillons. On peut alors déterminer une p-valeur empi- rique en comparant la statistique observée à l’éhantillon des statistiques boots- trap.

On constatera que cette démarche implique à nouveau les deux approximations du bootstrap.

Ce principe général peut s’adapter pour tout type de test mais nécessite de

faire attention de trouver une manière de générer des échantillons bootstrap qui

vérifient bien 𝐻

₀

quand les échantillons de départ le vérifient. Les deux exemples

ci-dessous, l’un simple et l’autre plus subtil, illustrent ce principe.

(15)

1.5. TESTS À L’AIDE DE BOOTSTRAP 15 1.5.1.1 Exemple 1 : test d’indépendance

On suppose que deux variables 𝑋 et 𝑌 ont été mesurées sur 𝑛 individus, donnant lieu à un échantillon (x, y) = ((𝑥

₁

, 𝑦

₁

), … , (𝑥

_𝑛

, 𝑦

_𝑛

)). On souhaite tester leur indépendance (test du Khi-deux d’indépendance sur des variables qualitatives ou test de corrélation sur des variables quantitatives par exemple).

— Etape 1 : On tire 𝐵 échantillons bootstrap (x

^∗𝑖

, y

^∗𝑖

), x

^∗𝑖

étant tiré comme un échantillon bootstrap dans x et y

^∗𝑖

étant tiré comme un échantillon bootstrap dans y. Les deux parties du tirage se faisant indépendamment l’une de l’autre, les (x

^∗𝑖

, y

^∗𝑖

) vivent bien sous 𝐻

₀

.

— Etape 2 : On détermine la valeur de la statistique 𝑠

^∗𝑖

pour chacun de ces échantillons et on en déduit la p-valeur empirique.

Par exemple, dans le cas d’un test du khi-deux

𝑝𝑣𝑎𝑙 = 1 𝐵

𝐵

∑

𝑖=1

1

_𝑠∗𝑖>𝑠_𝑜𝑏𝑠

1.5.1.2 Exemple 2 : test d’égalité des médianes entre deux échan- tillons

On dispose de deux échantillons x

₁

= (𝑥

_1,1

, … , 𝑥

_1,𝑚

) et x

₂

= (𝑥

_2,1

, … , 𝑥

_2,𝑛

) de la même variable 𝑋 mesurée dans deux population différente et on veut tester par exemple l’égalité de leurs médianes.

Attention ! On pourrait être tenté de créer des échantillons bootstrap (x

^∗i₁

) de x

₁

d’un côté, et x

^∗i₂

de x

₂

de l’autre puis de déterminer les statistiques de Wilcoxon issues de leurs comparaisons. Ce serait cependant une erreur.

En effet, les échantillons x

^∗i_k

auront pour médiane théorique celle de x

_k

, et, à moins que les deux échantillons observés aient la même médiane, les couples (x

^∗i₁

, x

^∗i₂

) ne satisfont pas 𝐻

₀

. Les statistiques issues de ces couples ne peuvent donc pas faire office de loi empirique de la statistique de test sous 𝐻

₀

.

Il existe cependant une manière de s’en sortir, qui repose sur le fait que si 𝐻

₀

est vraie, l’échantillon z obtenu en concaténant x

₁

et x

₂

vérifie 𝑚(z) = 𝑚(x

₁

) = 𝑚(x

₂

) :

— Etape 1 : On crée l’échantillon z et on tire 𝐵 échantillons bootstrap z

^∗i

, qui sont de longueur 𝑚 + 𝑛.

— Etape 2 : On crée les échantillons x

^∗i₁

et x

^∗i₂

à partir respectivement des

𝑚 premières et des 𝑛 dernières valeurs de z

^∗i

. On notera qu’ils ont bien

la même médiane théorique qui est 𝑚(z).

(16)

— Etape 3 : On détermine les 𝐵 statistiques de Wilcoxon des couples d’échantillons bootstrap et on détermine la p-valeur empirique adaptée à la latéralité de test choisie.

1.6 Sources

En plus des articles cités dans le texte, ce chapitre été écrit en utilisant les

slides d’Agathe Guilloux disponibles sur http://www.math-evry.cnrs.fr/_med

ia/members/aguilloux/enseignements/bootstrap/slides.pdf

(17)

Chapitre 2

Algorithme EM

Ce chapitre traite de l’algorithme Expectation-Maximisation, qui est un algo- rithme couramment utilisé lorqu’on modélise un phénomène à l’aide d’une va- riable catégorielle non-observée, par exemple un modèle de mélange.

2.1 L’exemple du modèle de mélange gaussien

On considère une variable aléatoire 𝑋 sur une population divisée en plusieurs catégories, de façon que la variable 𝑋 suit une loi normale différente suivant la catégorie considérée.

Exemple : La taille dans une population humaine peut être considérée comme suivant une loi normale chez les femmes et les hommes, avec des paramètres différents suivant le sexe.

Dans le cas de variables catégorielles connues, l’estimation est simple, il suffit de traiter séparément chaque catégorie. Dans de nombreuses applications cepen- dant, la variable catégorielle est non-observable (on parle de variable cachée ou de variable latente). Comment estimer alors les paramètres ?

2.1.1 Modèle

Le modèle de mélange gaussien est un modèle hiérarchique faisant intervenir une variable catégorielle 𝑍 à 𝐾 classes modélisée par une loi multinomiale. L’individu 𝑖 est de classe 𝑍

_𝑖

inconnue et une observation 𝑋

_𝑖

avec :

17

(18)

𝑍

_𝑖

∼ ℳ(𝛼) 𝑋

_𝑖

|𝑍

_𝑖

= 𝑘 ∼ 𝒩(𝜇

_𝑘

, 𝜎

_𝑘

) où 𝛼 = (𝛼

₁

, … , 𝛼

_𝐾

) est tel que ∑

^𝐾_𝑖=1

𝛼

_𝑖

= 1.

2.1.2 Vraisemblance

On note Θ = (𝛼, 𝜇, 𝜎) l’ensemble des paramètres. De plus, on note 𝑓

_𝜇,𝜎

(𝑥) la densité en 𝑥 de la loi normale 𝒩(𝜇, 𝜎

²

).

La vraisemblance conditionnelle sachant la variable 𝑍

_𝑖

est simplement la densité gaussienne, ce qui permet d’écrire la vraisemblance d’une observation

ℒ(𝑋

_𝑖

|Θ) =

𝐾

∑

𝑘=1

ℒ(𝑋

_𝑖

|𝑍

_𝑖

= 𝑘, Θ)P(𝑍

_𝑖

= 𝑘|Θ)

=

𝐾

∑

𝑘=1 𝑛

∏

𝑖=1

𝛼

_𝑖

𝑓

_𝜇

𝑘,𝜎_𝑘

(𝑋

_𝑖

)

Les observations étant indépendantes, la (log-)vraisemblance complète s’écrit alors

ℒ(X|�) =

𝑛

∏

𝑖=1 𝐾

∑

𝑘=1

𝛼

_𝑘

𝑓

_𝜇

𝑘,𝜎_𝑘

(𝑋

_𝑖

) log ℒ(X|�) =

𝑛

∑

𝑖=1

log (

𝐾

∑

𝑘=1

𝛼

_𝑘

𝑓

_𝜇_𝑘_,𝜎_𝑘

(𝑋

_𝑖

)

La présence de la somme dans le logarithme empêche une écriture plus simple ainsi que la résolution théorique du problème d’optimisation, le système d’équa- tions résultant de l’annulation des dérivées partielles ne se résolvant pas à la main.

Une approche possible est de recourir à des algorithmes numériques, de type Newton-Raphson, pour résoudre le problème d’optimisation (cf Exercice ??).

Cependant, elle devient potentiellement très lourde lorque la dimension du pro- blème ou le nombre de classes augmentent.

Remarque : Une autre méthode d’écriture de la vraisemblance est de la dé-

composer suivant l’ensemble du vecteur de variables latentes Z :

(19)

2.2. L’ALGORITHME EM 19

ℒ(X|Z, �) =

𝑛

∏

𝑖=1

𝑓

_𝜇

𝑍𝑖,𝜎_𝑍𝑖

(𝑋

_𝑖

) et

ℒ(X|�) = ∑

1≤𝑘₁,…,𝑘_𝑛≤𝐾 𝑛

∏

𝑖=1

𝛼

_𝑘

𝑖

𝑓

_𝜇

𝑘𝑖,𝜎_𝑘𝑖

(𝑋

_𝑖

)

Cette manière de faire ne rend pas l’optimisation plus simple, au contraire. En effet, la somme fait intervenir 𝐾

^𝑛

termes, ce qui rend même l’évaluation de la vraisemblance impossible en utilisant cette formule.

En revanche, on peut voir que dans le cas où les 𝑍

_𝑖

sont connus, l’estimation des paramètres 𝜇 et 𝜎 est aisée, étape sur laquelle reposera l’algorithme EM.

2.1.3 Loi à postériori

Dans beaucoup d’application des modèles à variables cachées, l’intérêt ne repose pas que dans l’estimation des paramètres des différentes lois, mais aussi dans le fait d’estimer la probabilité d’appartenance des différentes observations aux dif- férentes classes. En termes de statistiques bayésiennes, on cherche à déterminer la loi de 𝑍

_𝑖

au vu des observations, c’est-à-dire sa loi à postériori.

Ce calcul est simple à faire en utilisant la formule de Bayes une fois les paramètre du modèle estimés. Dans le cadre du mélange gaussien,

P(𝑍

_𝑖

= 𝑘|𝑋

_𝑖

) = P(𝑋

_𝑖

|𝑍

_𝑖

= 𝑘)P(𝑍

_𝑖

= 𝑘) P(𝑋

_𝑖

)

= 1

ℒ(𝑋

_𝑖

) 𝛼

_𝑘

𝑓

(𝑋

_𝑖

)

∝ 𝛼

_𝑘

𝑓

(𝑋

_𝑖

)

Comme souvent en statistiques bayésiennes, le dénominateur de la formule de Bayes, ici la vraisemblance de l’observation, n’a pas besoin d’être calculé. La somme des appartenances de 𝑍

_𝑖

à chacune des classes étant égale à 1, déterminer les numérateurs et utiliser cette contrainte permet de conclure.

2.2 L’algorithme EM

2.2.1 Introduction

On se place dans le cadre général d’un couple de variables (𝑋, 𝑍) tel que

(20)

— 𝑋 est observée, et supposée suivre une loi paramétrique

— 𝑍 est une variable qualitative latente

On note 𝜃 le vecteur contenant les paramètres de 𝑋 et les proportions de classes gouvernant 𝑍.

On cherche à résoudre le problème d’optimisation

̂ 𝜃 = argmax

𝜃

P(𝑋|𝜃) = argmax

𝜃

∑

𝑍

P(𝑋, 𝑍|𝜃)

Dans de nombreux cas (par ex. le modèle de mélange gaussien), ce problème est difficile à résoudre alors que maximiser P(𝑋, 𝑍|𝜃) est simple. Il est alors naturel de chercher à affecter des valeurs à 𝑍 pour estimer 𝜃 en s’intéressant à la loi à postériori P(𝑍|𝑋, 𝜃).

Cette dernière loi dépendant elle-même de 𝜃, une telle approche entraîne la mise en place d’une procédure qui, partant d’une valeur arbitraite 𝜃

₀

, va remettre à jour 𝜃 jusqu’à convergence.

Plusieurs stratégies sont possibles : Stratégie 1 : MAP

On peut assigner à chaque individu la valeur 𝑍

_𝑖

dont la probabilité à postériori est la plus grande, ou MAP. Cette approche a l’avantage d’être extrêmement simple à mettre en oeuvre mais se paye par le fait d’une grande perte d’informa- tion pour les individus intermédiaires. Elle donne des résultats d’autant moins bon que les classes sont mélangées (proche et/ou de grande variance).

Dans ce cas, 𝜃

_𝑜𝑙𝑑

permet de déterminer le vecteur Z

^MAP

et 𝜃

_𝑛𝑒𝑤

= argmax

𝜃

log P(X, Z

^𝑀𝐴𝑃

|𝜃)

On notera que dans le cas de classes équiprobables, cette approche correspond à l’algorithme de classification des k-means (cf Exercice ??).

Stratégie 2 : tirage au sort ou SEM

Une approche concurrente est d’utiliser la loi à postériori de 𝑍

_𝑖

pour tirer au sort l’affectation de l’individu 𝑖.

Dans ce cas, 𝜃

_𝑜𝑙𝑑

permet de tirer au sort un vecteur Z

¹

et 𝜃

_𝑛𝑒𝑤

= argmax

𝜃

log P(X, Z

¹

|𝜃)

D’un point de vue intuitif, un individu dont on est sûr de la classe y restera

avec grande probabilité mais un individu incertain en changera facilement.

(21)

2.3. ALGORITHME ET PREUVE DE CONVERGENCE 21 Cette approche permet de perdre beaucoup moins d’information mais ne converge pas au sens où tout individu finit par rechanger de classe infiniment de fois. Elle converge cependant au sens markovien du terme, à savoir qu’elle définit une chaîne de Markov convergente sur les 𝑍, mais implique en pratique un temps d’exécution assez long.

Il est à noter qu’elle reste une option utilisée lorsque l’algorithme EM ne peut pas être mis en place sous l’appellation SEM pour Stochastic EM.

Stratégie 3 : l’algorithme EM (Expectation-Maximisation) (Dempster et al., 1977)

L’instabilité en termes de classes de l’approche SEM peut être réduite en ne tirant non pas une mais 𝑁 valeurs de Z suivant P(𝑍|𝑋, 𝜃

_𝑜𝑙𝑑

) et en considérant la maximisation de la vraisemblance moyenne

𝜃

_𝑛𝑒𝑤

= argmax

𝜃

1 𝑁

𝑁

∑

𝑗=1

log P(𝑋, 𝑍

^𝑗

|𝜃) En faisant tendre 𝑁 vers l’infini,

𝑁→+∞

lim 1 𝑁

𝑁

∑

𝑗=1

P(𝑋, 𝑍

^𝑗

|𝜃) = ∫

𝑍

P(𝑍|𝑋, 𝜃

_𝑜𝑙𝑑

) log P(𝑋, 𝑍|𝜃)𝑑𝑍

= E

_𝑍

( log P(𝑋, 𝑍|𝜃)|𝑋, 𝜃

_𝑜𝑙𝑑

)

Considérer 𝜃

_𝑛𝑒𝑤

= argmax

𝜃

E

_𝑍

( log P(𝑋, 𝑍|𝜃)|𝑋, 𝜃

_𝑜𝑙𝑑

) permet d’éliminer l’incer- titude liée à l’échantillonnage de SEM, tout en prenant toute la distribution à postériori en compte.

2.3 Algorithme et preuve de convergence

On définit

𝑄(𝜃|𝜃

_𝑜𝑙𝑑

) = E

_𝑍

( log P(𝑋, 𝑍|𝜃)|𝑋, 𝜃

_𝑜𝑙𝑑

)

L’algorithme Expectation-Maximisation se décompose de la façon suivante : 1. Choisir arbitrairement une valeur 𝜃

₀

et poser 𝜃

_𝑜𝑙𝑑

= 𝜃

₀

.

2. Etape E : Déterminer la fonction 𝑄(𝜃|𝜃

_𝑜𝑙𝑑

)

(22)

3. Etape M : Déterminer

𝜃

_𝑛𝑒𝑤

= argmax

𝜃

𝑄(𝜃|𝜃

_𝑜𝑙𝑑

)

4. Poser 𝜃

_𝑜𝑙𝑑

= 𝜃

_𝑛𝑒𝑤

et reprendre à l’étape 2 jusqu’à convergence.

Lemme 1. La log-vraisemblance ℓ(𝜃) = log P(𝑋|𝜃) se décompose pour tous paramètres 𝜃 et 𝜃

_𝑜𝑙𝑑

en

ℓ(𝜃) = 𝑄(𝜃|𝜃

_𝑜𝑙𝑑

) + 𝐻(𝜃|𝜃

_𝑜𝑙𝑑

) avec

𝐻(𝜃|𝜃

_𝑜𝑙𝑑

) = −P(𝑍|𝑋, 𝜃

_𝑜𝑙𝑑

) log P(𝑍|𝑋, 𝜃)𝑑𝑆

Démonstration. Le passage au logarithme dans la P(𝑋, 𝑍|𝜃) = P(𝑍|𝑋, 𝜃)P(𝑋|𝜃) entraîne

log P(𝑋|𝜃) = log P(𝑋, 𝑍|𝜃) − log P(𝑍|𝑋, 𝜃) L’intégration contre P(𝑍|𝑋, 𝜃

_𝑜𝑙𝑑

)𝑑𝑆 donne le résultat.

Théorème 2. Toute boucle de l’algorithme augmente la vraisemblance. En d’autres termes, en notant ℓ la log-vraisemblance,

ℓ(𝜃

_𝑛𝑒𝑤

) ≥ ℓ(𝜃

_𝑜𝑙𝑑

) Démonstration. Le lemme implique

ℓ(𝜃

_𝑛𝑒𝑤

) − ℓ(𝜃

_𝑜𝑙𝑑

) = 𝑄(𝜃 ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟

_𝑛𝑒𝑤

|𝜃

_𝑜𝑙𝑑

) − 𝑄(𝜃

_𝑜𝑙𝑑

|𝜃

_𝑜𝑙𝑑

)

𝐴

+ 𝐻(𝜃 ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟

_𝑛𝑒𝑤

|𝜃

_𝑜𝑙𝑑

) − 𝐻(𝜃

_𝑜𝑙𝑑

|𝜃

_𝑜𝑙𝑑

)

𝐵

Par définition de 𝜃

_𝑜𝑙𝑑

, il est clair que 𝐴 > 0.

En ce qui concerne 𝐵, on rappelle l’inégalité de Jensen :

Pour toute variable aléatoire réelle 𝑌 et toute fonction convexe 𝜙 ∶ R → R, on a E(𝜙(𝑌 )) ≥ 𝜙(E(𝑌 )) (sous condition d’intégrabilité)

En considérant la fonction convexe 𝜙 définie par 𝜙(𝑦) = − log 𝑦, on en déduit : 𝐵 = ∫

𝑍

𝑃 (𝑍|𝑋, 𝜃

_𝑜𝑙𝑑

) × 𝜙( 𝑃 (𝑍|𝑋, 𝜃

_𝑛𝑒𝑤

) 𝑃 (𝑍|𝑋, 𝜃

_𝑜𝑙𝑑

) )𝑑𝑍 et donc

𝐵 ≥ 𝜙( ∫

𝑍

𝑃 (𝑍|𝑋, 𝜃

_𝑜𝑙𝑑

) × 𝑃 (𝑍|𝑋, 𝜃

_𝑛𝑒𝑤

)

𝑃 (𝑍|𝑋, 𝜃

_𝑜𝑙𝑑

) 𝑑𝑍) = 𝜙(1) = 0

ce qui achève la preuve.

(23)

2.3. ALGORITHME ET PREUVE DE CONVERGENCE 23 Remarque : Ce théorème assure que la vraisemblance augmente à chaque pas et donc que l’algorithme converge au sens où la vraisemblance tend vers un maximum local. Cependant

— il n’y a pas de garantie qu’il s’agit du maximum global

— le point de convergence dépend du point de départ. Il est préférable quand c’est possible de multiplier les points de départs, ou de ne pas le choisir arbitrairement.

2.3.1 Remerciement

Merci à Grégory Nuel pour m’avoir permis de s’inspirer de ses notes de cours

pour ce chapitre.

(24)

(25)

Chapitre 3

TD1 - Bootstrap

3.1 Exercice 1 - Implémentation et illustration des deux approximations

Dans cet exercice, on considère un échantillon x tiré suivant une loi exponentielle ℰ(0.3) et on s’intéresse à l’estimation de sa médiane 𝑚.

1. Ecrire des fonctions qui, à partir de x, déterminent les médianes de 𝐵 échantillons bootstrap (à partir desquels on pourra estimer 𝑚 et un in- tervalle de confiance de 𝑚) dans les cas suivants :

a. bootstrap non-paramétrique à la main (sans utiliser de fonction R pré- écrite)

b. bootstrap non-paramétrique en utilisant la fonction boot

2. Comparer, à l’aide d’un boxplot, la distribution empirique de l’échantillon ( ̂ 𝑚

₁

, … , ̂ 𝑚

_𝐵

), correspondant à 𝐵 = 500 estimations obtenues sur des échantillons indépendants de taille 𝑛 = 20, avec la distribution empirique de ( ̂ 𝑚

^∗₁

, … , ̂ 𝑚

^∗_𝐵

) obtenu par bootstrap sur un échantillon.

Commentez. Quelle est l’approximation illustrée par ce graphique ? L’erreur diminue-t-elle lorqu’on augmente B ?

3. Comparer les distributions empiriques des échantillons bootstrap pour 𝑛 = 100, 500, 1000.

Commentez. Quelle est l’approximation illustrée par ce graphique ?

25

(26)

3.2 Exercice 2 - Bootstrap paramétrique vs bootstrap non paramétrique

On considère une variable 𝑋 d’espérance 𝜇 et un échantillon x i.i.d de loi 𝑋.

1. Ecrire une procédure (soit à la main, soit en utilisant la fonction boot) qui donne un intervalle de confiance bootstrap de 𝜇 à un niveau (1 − 𝛼) dans les cas suivants :

a. bootstrap non-paramétrique

b. bootstrap paramétrique en supposant que 𝑋 suit une loi exponentielle c. bootstrap paramétrique en supposant que 𝑋 suit une loi de Poisson d. bootstrap paramétrique en supposant que 𝑋 suit une loi normale 2. Ecrire un programme qui génère 100 échantillons (𝑋

₁

, ..., 𝑋

₁₅

) de loi de

Poisson de paramètre 𝜆 = 1.2 et qui calcule sur chaque échantillon les bornes inférieures et supérieures des différents intervalles de confiance.

Déterminer la largeur empirique moyenne de chaque type d’intervalle de confiance ainsi que la probabilité de couverture empirique de chaque type d’intervalle de confiance. Que constatez-vous ?

Recommencer avec une loi Gamma de paramètre de forme (shape) égal à 1.2 puis 0.8 pour un paramètre d’échelle (scale) égal à chaque fois à 1.

3.3 Exercice 3 - Comparaison des espérances de vie entre fumeurs et non-fumeurs

On considère les échantillons suivants, qui donnent les âges de décès de vingt fumeurs et vingt non-fumeurs.

Non-fumeurs 84 73 73 83 80 67 91 76 90 70 70 81

78 68 64 82 91 72 84 66

Fumeurs 94 65 71 83 47 55 96 57 57 64 77 97

51 50 48 41 71 59 86 71

1. Tester l’égalité des espérances de vies entre les deux conditions à l’aide d’un test basé sur le bootstrap. On précisera les hypothèses, la latéralité et la statistique de test choisie.

On s’intéresse dorénavant au ration des espérances de vie, à savoir, si 𝑋

_𝐹

et 𝑋

_𝑁𝐹

désignent les âges de décès chez les fumeurs et les non-fumeurs respectivement,

𝜃 = E(𝑋

_𝐹

)

E(𝑋

_𝑁𝐹

)

(27)

3.4. BOOTSTRAP ET RÉGRESSION LINÉAIRE 27 2. Déterminer une estimation bootstrap du biais et de la variance de 𝜃 3. Déterminer un intervalle de confiance à 95% de 𝜃

3.4 Bootstrap et régression linéaire

On considère un problème de régression linéaire gaussienne 𝑌

_𝑖

= X

_𝑖

� + 𝜖

_𝑖

, 𝜖

_𝑖

∼ 𝒩(0, 𝜎

_𝑖²

) On dispose d’un échantillon ((𝑋

₁

, 𝑌

₁

), … , (𝑋

_𝑛

, 𝑌

_𝑛

)).

On considère deux manières d’obtenir des intervalles de confiance pour l’estima- tion de 𝛽 :

a. Considérer les 𝑋

_𝑖

comme aléatoires et faire des échantillons bootstrap en tirant avec remise des couples (𝑋

_𝑖

, 𝑌

_𝑖

).

b. Considérer les 𝑋

_𝑖

comme constants et seuls les résidus comme aléatoires.

On peu alors estimer les résidus par 𝜖

_𝑖

̂ = 𝑌

_𝑖

− 𝑋

_𝑖

𝛽, créer des échantillons ̂ bootstrap des résidus et définir 𝑌

_𝑖^∗𝑏

= 𝑋

_𝑖

𝛽 + 𝜖 ̂

^∗𝑏_𝑖

Dans les deux cas, chaque échantillon bootstrap ainsi construit contient 𝑛 couples (𝑋, 𝑌 ) qui permettent d’obtenir une estimation bootstrap de 𝛽.

1. Charger les données airquality. Après avoir supprimé les lignes ayant une valeur manquante, estimer les paramètres d’une régression linéaire du taux d’ozone en fonction du rayonnement solaire, du vent et de la température. Donner un intervalle de confiance à 95% des coefficients de 𝛽 avec chacune des méthodes précédentes.

2. Reprendre la question précédente sur des données homoscédastiques (𝜎

_𝑖

= 𝜎 pour tout 𝑖), puis sur des données fortement hétéroscédastiques (avec des 𝜎

_𝑖

d’un ordre de grandeur plus grand que 𝑋𝛽). Commentez les

résultats données par chacune des méthodes.

3.5 Majoration de la première erreur du boots- trap

On considère une variable aléatoire 𝑋 telle que E|𝑋|

³

< ∞. On considère que le paramètre 𝜃 à estimer est la moyenne et on note

𝐹

_𝑛

(𝑡) = P( √

𝑛( ̂ 𝜃 − 𝜃) ≤ 𝑡) et 𝐹

_𝑛

̂ (𝑡) = P( √

𝑛( ̂ 𝜃

^∗

− ̂ 𝜃) ≤ 𝑡)

(28)

les probabilités d’avoir des erreurs d’estimation supérieures à

^√^𝑡_𝑛

dans le monde réel et dans le monde bootstrap. On note Φ

_𝜎

la fonction de répartition de la loi normale centrée en 0 et d’écart-type 𝜎.

Le but de cet exercice est de montrer que sup

𝑡∈R

|𝐹

_𝑛

(𝑡) − ̂ 𝐹

_𝑛

(𝑡)| = 𝒪( 1

√ 𝑛 )

Pour cela, on admet le théorème de Berry-Esseen qui borne la convergence du TCL :

Théorème 3. Soit 𝑋 une variable aléatoire d’espérance 𝜇, de variance 𝜎

²

et telle que 𝜇

₃

= E|𝑋 − 𝜇|

³

< ∞. On considère un échantillon de 𝑛 tirages indépendants, de moyenne 𝑋

_𝑛

.

Alors, en notant Φ le fonction de répartition de la loi normale centrée réduite,

sup

𝑧

|P( √

𝑛 𝑋

_𝑛

− 𝜇

𝜎 ≤ 𝑧) − Φ(𝑧)| ≤ 33 4

𝜇

₃

𝜎

³

√ 𝑛 1. Démontrer que sup

_𝑡

|𝐹

_𝑛

(𝑡) − Φ

_𝜎

(𝑡)| = 𝒪(

^√¹_𝑛

)

2. Démontrer que sup

_𝑡

| ̂ 𝐹

_𝑛

(𝑡) − Φ

_𝜎_̂

(𝑡)| = 𝒪(

^√¹_𝑛

)

3. Démontrer que sup

_𝑡

|Φ

_𝜎

(𝑡)−Φ

_𝜎_̂

(𝑡)| = 𝒪(

^√¹_𝑛

) et conclure. On commencera

par montrer que | ̂ 𝜎 − 𝜎| = 𝒪(

^√¹_𝑛

).

(29)

Chapitre 4

TD2 - Algorithme EM

4.1 Exercice 1 - Mélange gaussien à deux com- posantes

On considère un échantillon X = (𝑋

₁

, … , 𝑋

_𝑛

) tiré suivant le processus suivant :

𝑍

_𝑖

∼ ℬ(𝑝)

𝑋

_𝑖

|𝑍

_𝑖

= 𝑘 ∼ 𝒩(𝜇

_𝑘

, 𝜎

²_𝑘

), 𝑘 ∈ {0, 1}

On cherche à estimer 𝜃 = (𝑝, 𝜇

₀

, 𝜎

₀

, 𝜇

₁

, 𝜎

₁

).

1. Déterminer 𝑄(𝜃|𝜃

_𝑜𝑙𝑑

) 2. Déterminer 𝜃

_𝑛𝑒𝑤

3. Implémenter l’algorithme correspondant. Le tester sur un jeu de données simulé.

4.2 Exercice 1bis - Mélange de gausiennes à K composantes

Reprendre l’exercice précédent avec 𝐾 composantes.

29

(30)

4.3 Exercice 2 - Algorithme des k-means

On considère un ensemble de points (𝑋

₁

, … , 𝑋

_𝑛

) de R

^𝑝

, qu’on cherche à répartir en 𝐾 classes. Pour cela, l’algorithme k-means (ou k-moyennes) fonctionne ainsi : 1. 𝐾 points (𝜇

₁

, … , 𝜇

_𝐾

de R

^𝑝

, appelés moyennes, sont choisis arbitraire-

ment.

2. Chaque 𝑋

_𝑖

est affecté à la classe 𝑘 où 𝑘 = argmin

𝑗

‖𝑋

_𝑖

− 𝜇

_𝑗

‖

²

3. Pour tout 1 ≤ 𝑘 ≤ 𝐾, on définit 𝜇

_𝑘

comme la moyenne des points qui ont été affectés à la classe 𝑘.

4. On répète les étapes 2 et 3 jusqu’à convergence.

Montrer que l’algorithme des k-means revient à appliquer l’algorithme EM en supposant un mélange gaussien homoscédastique et en remplaçant l’étape E par la règle du maximum à posteriori (MAP) avec des classes équiréparties à priori.

4.4 Exercice 3 - Mélange de loi exponentielles

Ecrire et implémenter un algorithme EM pour l’estimation des paramètres d’un mélange de trois lois exponentielles. L’implémenter et l’illustrer sur des données simulées.

4.5 Exercice 4 - Détection d’une rupture dans un processus de comptage

On suppose qu’une suite (𝑥

₁

, … , 𝑥

_𝑛

) de valeurs réelles est telle qu’il existe un entier 𝑍 ∈ {1, … , 𝑛} non observé tel que

𝑍 ∼ 𝒰({1, … , 𝑛}) 𝑋

_𝑖

∼ 𝒫(𝜆

₁

) pour 𝑖 ≤ 𝑍 𝑋

_𝑖

∼ 𝒫(𝜆

₂

) pour 𝑖 > 𝑍

En d’autres termes, les 𝑋

_𝑖

sont émis suivant une loi de Poisson avec un change- ment de paramètres à un moment inconnu.

1. Ecrire la vraisemblance d’une observation sous ce modèle

(31)

4.6. EXERCICE 5 - ESTIMATION EN GÉNÉTIQUE. 31 2. Ecrire l’étape E de l’algorithme EM

3. En écrire l’étape M

4. Simuler un jeu de données avec 𝑛 = 100, 𝑍 = 40, 𝜆

₁

= 30, 𝜆

₂

= 60.

5. Implémenter la méthode, et l’illustrer sur le jeu de données simulées.

4.6 Exercice 5 - Estimation en génétique.

Le gène codant pour le groupe sanguin d’un individu a trois allèles possibles : A, B et O. Le type O est récessif, les types A et B sont dominants. On observe quatre groupes sanguins (ou phénotypes) : [A] (pour un génotype AA ou AO), [B] (pour un génotype BB ou BO), [AB] (pour un génotype AB) et [O] (pour un génotype OO).

On souhaite estimer les probabilités qu’un chromosome porte l’allèle A, B ou O respectivement notées 𝑝

_𝐴

, 𝑝

_𝐵

et 𝑝

_𝑂

= 1 − 𝑝

_𝐴

− 𝑝

_𝐵

.

On observe pour cela le phénotype de 521 personnes. Les données sont les sui- vantes :

𝑛

_𝐴

𝑛

_𝐵

𝑛

_𝐴𝐵

𝑛

_𝑂

186 38 13 284

Déterminer une estimation de 𝑝

_𝐴

, 𝑝

_𝐵

et 𝑝

_𝑂

en utilisant l’algorithme EM.

4.7 Exercice 6 - Estimation en épidémiologie.

D’après les observations rapportées par McKendrick (1926), le choléra affectant les foyers indiens au début du 20ème siècle peut donner lieu à des infections sévères ou à des infections plus légèresqui sont alors asymptomatiques de sorte que l’observation des foyers sans cas est non fiable.

Les malades asymptomatiques sont néanmoins transmetteurs de la maladie.

McKendrick a recensé le nombre de cas par foyers dans une certaine région indienne au cours d’une épidémie donnée.

Les données sont les suivantes :

nombre de cas par foyer 0 1 2 3 4 ≥ 5

effectif NA 32 16 6 1 0

En admettant que les comptages suivent une loi de Poisson, proposer une impu-

tation du nombre de foyer sans cas en utilisant l’algorithme EM.

(32)

4.8 Exercice 7 - Etude démographique.

Une étude démographique est réalisée afin d’étudier le nombre moyen d’enfants par foyer. Une campagne de recensement est effectuée. Pour des raisons tech- niques, les données suivantes sont recueillies :

nombre d’enfants par foyer 0 1 ou 2 3 ou 4 5 ≥ 6

effectif 24 32 16 4 0

En admettant que la loi du nombre d’enfants par foyer est une loi de Poisson,

proposer une estimation du paramètre 𝜆 de cette loi (en utilisant l’algorithme

EM).

(33)

Chapitre 5

TD1 - Bootstrap - Correction

library(boot) library(tidyverse) library(ggplot2)

5.1 Exercice 1 - Implémentation et illustration des deux approximations

Dans cet exercice, on considère un échantillon x tiré suivant une loi exponentielle ℰ(0.3) et on s’intéresse à l’estimation de sa médiane 𝑚.

1. Ecrire des fonctions qui, à partir d’un échantillon x, déterminent les médianes de 𝐵 échantillons bootstrap (à partir desquels on pourra estimer 𝑚 et un intervalle de confiance de 𝑚) dans les cas suivants :

a. bootstrap non-paramétrique à la main* (sans utiliser de fonction R pré- écrite)*

myboot_median <- function(data,B){

bootsample <- c() for (i in 1:B){

bootsample <- c(bootsample,median(sample(data,length(data),replace=TRUE)))

#sample(data,length(data),replace=TRUE) crée l'échantillon bootstrap puis on prend la médiane }

return(bootsample) }

33

(34)

b. bootstrap non-paramétrique en utilisant la fonction boot* *

samplemedian <- function(x, d) { return(median(x[d]))

}

#puis on appelera boot(x, samplemedian, R=B) pour obtenir le résultat

2. Comparer, à l’aide d’un boxplot, la distribution empirique de l’échantillon ( ̂ 𝑚

₁

, … , ̂ 𝑚

_𝐵

), correspondant à 𝐵 = 500 estimations obtenues sur des échantillons indépendants de taille 𝑛 = 20, avec la distribution empirique de ( ̂ 𝑚

^∗₁

, … , ̂ 𝑚

^∗_𝐵

) obtenu par bootstrap sur un échantillon.

n=20 B=500

#médianes de B échantillons indépendants iidmedian <- c()

for (i in 1:B){

iidmedian <- c(iidmedian,median(rexp(n,rate=.3))) }

#medianes de B échantillons bootstrap data <- rexp(n,rate=.3)

bootmedian <- myboot_median(data,B)

# ou boot(data,samplemedian,B)$t medians <- c(iidmedian,bootmedian)

sampletype <- c(rep("iid",length(iidmedian)),rep("bootstrap",length(bootmedian))) bpdata <- data.frame(medians,sampletype)

p <- ggplot(bpdata, aes(x=sampletype, y=medians)) + geom_boxplot()

p

(35)

5.1. EXERCICE 1 - IMPLÉMENTATION ET ILLUSTRATION DES DEUX APPROXIMATIONS35

1 2 3 4 5

bootstrap iid

sampletype

medians

Commentez. Quelle est l’approximation illustrée par ce graphique ? L’erreur diminue-t-elle lorqu’on augmente B ?

On voit que les deux boxplots ne sont pas centrés exactement sur la même valeur.

Ceci est normal, puisque le premier doit être centré sur la vraie médiane de ℰ(.3) quand le second est en fait centré sur la médiane de l’échantillon tiré suivent cette loi. Cette différence illustre la première approximation du bootstrap.

Cette erreur est due au fait qu’on a remplacé 𝑃 par 𝑃 ̂ et ne diminuera pas avec 𝐵, comme le montre les boxplots ci-dessous.

bootmedian100 <- myboot_median(data,100) bootmedian1000 <- myboot_median(data,1000)

medians <- c(iidmedian,bootmedian100,bootmedian,bootmedian1000)

sampletype <- c(rep("iid",length(iidmedian)),rep("boot100",length(bootmedian100)),rep("boot500",length(bootmedian)),rep("boot1000",length(bootmedian1000))) bpdata <- data.frame(medians,sampletype)

p <- ggplot(bpdata, aes(x=sampletype, y=medians)) + geom_boxplot()

p

(36)

1 2 3 4 5

boot100 boot1000 boot500 iid

sampletype

medians

3. Comparer les distributions empiriques des échantillons bootstrap pour 𝑛 = 100, 500, 1000.

data <- rexp(10,rate=.3)

bootmedian10 <- myboot_median(data,B) data <- rexp(20,rate=.3)

bootmedian20 <- myboot_median(data,B) data <- rexp(50,rate=.3)

bootmedian50 <- myboot_median(data,B) truevalue <- log(2)/.3

medians <- c(bootmedian10,bootmedian20,bootmedian50,truevalue)

samplesize <- c(rep("10",length(bootmedian10)),rep("20",length(bootmedian20)),rep("50",length(bootmedian50)),"truevalue") bpdata <- data.frame(medians,samplesize)

p <- ggplot(bpdata, aes(x=samplesize, y=medians)) + geom_boxplot()

p

(37)

5.2. EXERCICE 2 - BOOTSTRAP PARAMÉTRIQUE VS BOOTSTRAP NON PARAMÉTRIQUE37

2.5 5.0 7.5 10.0

10 20 50 truevalue

samplesize

medians

Commentez.

Comme attendu, la première erreur du bootstrap diminue lorsque 𝑛 augmente, puisque la médiane de l’unique échantillon pris en compte se rapproche de la vraie médiane.

5.2 Exercice 2 - Bootstrap paramétrique vs bootstrap non paramétrique

On considère une variable 𝑋 d’espérance 𝜇 et un échantillon x i.i.d de loi 𝑋.

1. Ecrire une procédure (soit à la main, soit en utilisant la fonction boot) qui donne un intervalle de confiance bootstrap de 𝜇 à un niveau (1 − 𝛼) dans les cas suivants :

a. bootstrap non-paramétrique samplemean <- function(x, d) {

return(mean(x[d])) }

nonparamCI <- function(data,B,conf=.95,type="perc"){

b=boot(data,samplemean,1000)

(38)

return(boot.ci(b,conf,type)$percent) }

npCI <- function(data,B,conf){

bootsample <- c() for (i in 1:B){

bootsample <- c(bootsample,mean(sample(data,length(data),replace=TRUE))) }

CI.inf <- **sort(bootsample)[floor(B*(1-conf)/2)]**

CI.sup <- **sort(bootsample)[floor(B*(1-(1-conf)/2))]**

return(list(inf=CI.inf,sup=CI.sup)) }

b. bootstrap paramétrique en supposant que 𝑋 suit une loi exponentielle expCI <- function(data,B,conf){

bootsample <- c() lambda = 1/mean(data) for (i in 1:B){

bootsample <- c(bootsample,mean(rexp(length(data),lambda))) }

CI.inf <- **sort(bootsample)[floor(B*(1-conf)/2)]**

CI.sup <- **sort(bootsample)[floor(B*(1-(1-conf)/2))]**

return(list(inf=CI.inf,sup=CI.sup)) }

c. bootstrap paramétrique en supposant que 𝑋 suit une loi de Poisson poissCI <- function(data,B,conf){

bootsample <- c() lambda = mean(data) for (i in 1:B){

bootsample <- c(bootsample,mean(rpois(length(data),lambda))) }

CI.inf <- **sort(bootsample)[floor(B*(1-conf)/2)]**

CI.sup <- **sort(bootsample)[floor(B*(1-(1-conf)/2))]**

return(list(inf=CI.inf,sup=CI.sup)) }

d. bootstrap paramétrique en supposant que 𝑋 suit une loi normale normCI <- function(data,B,conf){

bootsample <- c()

m = mean(data)

sd = sd(data)

for (i in 1:B){

(39)

5.2. EXERCICE 2 - BOOTSTRAP PARAMÉTRIQUE VS BOOTSTRAP NON PARAMÉTRIQUE39 bootsample <- c(bootsample,mean(rnorm(length(data),m,sd)))

}

CI.inf <- **sort(bootsample)[floor(B*(1-conf)/2)]**

CI.sup <- **sort(bootsample)[floor(B*(1-(1-conf)/2))]**

return(list(inf=CI.inf,sup=CI.sup)) }

2. Ecrire un programme qui génère 100 échantillons (𝑋

₁

, ..., 𝑋

₁₅

) de loi de Poisson de paramètre 𝜆 = 1.2 et qui calcule sur chaque échantillon les bornes inférieures et supérieures des différents intervalles de confiance.

Déterminer la largeur empirique moyenne de chaque type d’intervalle de confiance ainsi que la probabilité de couverture empirique de chaque type d’intervalle de confiance. Que constatez-vous ?

np.inf <- c() np.sup <- c() exp.inf <- c() exp.sup <- c() poiss.inf <- c() poiss.sup <- c() norm.inf <- c() norm.sup <- c() for (i in 1:100){

data <- rpois(15,1.2)

np.CI <- npCI(data,1000,conf=.95) np.inf<- c(np.inf,np.CI$inf) np.sup<- c(np.sup,np.CI$sup)

exp.CI <- expCI(data,1000,conf=.95) exp.inf<- c(exp.inf,exp.CI$inf) exp.sup<- c(exp.sup,exp.CI$sup)

poiss.CI <- poissCI(data,1000,conf=.95) poiss.inf<- c(poiss.inf,poiss.CI$inf) poiss.sup<- c(poiss.sup,poiss.CI$sup) norm.CI <- normCI(data,1000,conf=.95) norm.inf<- c(norm.inf,norm.CI$inf) norm.sup<- c(norm.sup,norm.CI$sup)

}

(40)

np <- data.frame(np.inf,np.sup)

np <- np %>% mutate(width=np.sup-np.inf,contains=ifelse(np.inf<1.2 & np.sup>1.2,1,0)) exp <- data.frame(exp.inf,exp.sup)

exp <- exp %>% mutate(width=exp.sup-exp.inf,contains=ifelse(exp.inf<1.2 & exp.sup>1.2,1,0)) poiss <- data.frame(poiss.inf,poiss.sup)

poiss <- poiss %>% mutate(width=poiss.sup-poiss.inf,contains=ifelse(poiss.inf<1.2 & poiss.sup>1.2,1,0)) norm <- data.frame(norm.inf,norm.sup)

norm <- norm %>% mutate(width=norm.sup-norm.inf,contains=ifelse(norm.inf<1.2 & norm.sup>1.2,1,0)) Les largeurs empiriques moyennes et taux de couverture sont les suivants :

type = c("np","exp","pois","norm")

mean.width = c(mean(np$width),mean(exp$width),mean(poiss$width),mean(norm$width))

coverage = c(mean(np$contains),mean(exp$contains),mean(poiss$contains),mean(norm$contains)) data.frame(type,mean.width,coverage)

## type mean.width coverage

## 1 np 1.029333 0.89

## 2 exp 1.212453 0.94

## 3 pois 1.100667 0.94

## 4 norm 1.081695 0.93

La couverture annoncée est obtenue pour le bootstrap Poisson, ce qui est attendu pour une loi de Poisson. Cependant, le bootstrap non-paramétrique a une bonne couverture alors qu’il ne fait aucune hypothèse.