Notes de cours sur les méthodes de régression

(1)

Notes de cours sur les méthodes de régression

Support du cours pour les M1 EURIA Année 2015-2016

1 Introduction aux méthodes de régression

L’objectif général de la régression est d’expliquer une variableY, dite réponse, variable exogène ou variable à expliquer, en fonction depvariablesX1, ..., Xp, dites variables explicatives ou endogènes. On dispose d’observations de ces variables surnindividus, c’est à dire d’un tableau de données de la forme :

y1 x1,1 x1,2 . . . x1,p

y2 x2,1 x2,2 . . . x2,p

... ... ... ... ... yn xn,1 xn,2 . . . xn,p

Table1 – Lignes : individus, Colonnes : variables

La première colonne est la variable à prédire à partir des variables explicatives données dans les p dernières colonnes.

Les méthodes de régression sont couramment utilisées en actuariat. Deux exemples seront plus précisément étudiés dans le cadre de ce cours :

– Assurance dommage : les modèles de régression sont couramment utilisés pour prévoir la prime pure d’un assuré en fonction de son profil. On cherche par exemple à prédire le nombre et les montants des sinistres d’un assuré au cours d’une année en fonction de son sexe, son âge, son métier (CSP), la région où il vit, etc afin d’adapter au mieux la tarification au profil de l’assuré...

– Tables de mortalité : les tables de mortalités décrivent la démographie d’une population donnée, typiquement le nombreNx,t de survivants qui ont l’âgexl’annéet. Les modèles de régression sont couramment utilisés pour prévoir l’évolution future de la population et réaliser des tables de mortalité prospectives. Ces tables prospectives sont utilisées pour de nombreux calculs actuariels en assurance vie.

– Triangles de liquidation des sinistres :en assurance dommages, selon les branches considérées, les sinistres relatifs à un contrat sont constatés et payés plus ou moins longtemps après leur

survenance (jusqu’à 10 ans). On résume généralement les données disponibles dans un "triangle des sinistres" qui décrivent les montant des sinistres survenus l’année iet réglés l’année comptablei+j.

La réglementation prudentielle impose aux compagnies d’assurance d’estimer la charge future des sinistres afin de provisionner de quoi faire face à leurs engagements futurs ; la modélisation des triangles de sinistre avec des modèles de régression permet de réaliser ces estimations.

Ces différentes variables peuvent être

– quantitatives à valeurs continues (ex : âge, température, montant...)

– quantitatives à valeurs discrètes, par exemple à valeurs binaires (ex : présence/absence d’une maladie) ou entières (ex : nombre de sinistres)

– qualitatives (ex : CSP, région, sexe).

(2)

La nature des variables conditionne fortement la méthode de régression utilisée :

– dans le chapitre 4, toutes les variables sont supposées être quantitatives continues et on introduira la régression linéaire multiplequi est une généralisation de larégression linéaire simpleétudiée en L3

– dans le chapitre 5, on supposera toujours que la variable à expliquer est quantitative continue, mais on autorisera certaines variables explicatives à être qualitatives ou quantitatives discrètes et on introduiral’analyse de la variance etl’analyse de la covariance

– enfin, les modèles linéaires généralisés (GLM), abordés dans le chapitre 6, permettent de généraliser les modèles de régression linéaire lorsque la variable à expliquer est qualitative ou discrète.

Les chapitres 2 et 3 sont des rappels des cours de L3 et sont des pré-requis de ce cours. Le chapitre 2 rappelle certaines notions essentielles du cours de statistique : estimation, intervalle de confiance, test statistique, méthode du maximum de vraisemblance,... Le chapitre 3 rappelle certaines propriétés des vecteurs gaussiens et des projections orthogonales. Ce sont les principaux outils mathématiques utilisés dans les démonstrations des chapitres 4 et 5.

2 Introduction à la statistique inférentielle

Pour plus de détails, on pourra consulter les ouvrages suivants :

Husson F. et Pagès J. (2005),Statistiques générales pour utilisateurs. 2 - Exercices et corrigés, Presses Universitaires de Rennes.

Knight, K. (1999),Mathematical Statistics, Chapman and Hall.

Pagès J. (2005),Statistiques générales pour utilisateurs. 1 - Méthodologie, Presses Universitaires de Rennes.

Saporta, G. (2006),Probabilités, analyses des données et statistiques, Editions Technip, 2e édition.

2.1 Introduction

Les exemples ci-dessous serviront à illustrer ce chapitre :

– Exemple 1 : contrôle de qualité. Un client commande à son fournisseur un lot de 10000 thermomètres. Afin de tester la qualité des thermomètres, le client en choisit 20 au hasard et les plonge dans un liquide à 20 degrés. Il obtient les résultats suivants :

20.2, 20.4, 20.1, 19.9, 19.7, 20, 20.5, 19.9, 19.9, 20.1, 20.4, 20.6, 20, 19.8, 20.3, 19.6, 19.8, 20.1, 20.3, 20 Que peut-on en déduire sur la qualité des thermomètres ? Est-ce qu’ils donnent la bonne température en moyenne ? Avec quelle précision ?

– Exemple 2 : sondage. Afin d’estimer les intentions de vote lors du deuxième tour d’une élection présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensent voter pour le candidat A et 480 pour le candidat B. Que peut-on en déduire sur les intentions de vote dans la population française ? Avec quelle précision le sondage effectué permet t’il d’estimer le pourcentage d’intention de vote en faveur du candidat A ? Peut on déduire de ce sondage, avec une certaine confiance, que à la date du sondage le candidat A est en tête ?

– Exemple 3 : efficacité d’un médicament en médecine. Afin d’étudier l’effet d’un nouveau médicament en vue de réduire la tension artérielle, on a mesuré la tension (en mm de Hg) sur 12 patients avant et après traitement. Les valeurs suivantes ont été obtenues :

Avant 200 174 198 170 179 182 193 209 185 155 169 210 Après 191 170 177 167 159 151 176 183 159 145 146 177 Peut-on conclure que ce médicament réduit la tension artérielle ?

(3)

2.2 Modélisation

On dispose donc de nobservations notées(x1, ..., xn)∈Rⁿ (cf exemples ci-dessus). On va supposer tout d’abord que ces observations sont une réalisation d’une expérience aléatoire, c’est à dire qu’il existe des variables aléatoires réelles (v.a.r.)(X1, ..., Xn)définies sur un espace probabilisé(Ω,F,P)telles que (x1, ..., xn) = (X1(ω), ..., Xn(ω))avecω∈Ω.

Ceci permet de modéliser l’aléatoire qui est généralement présente dans le recueil des données. Par exemple, dans les exemples introduits ci-dessus :

– Exemples 1,2 et 3 : dans ces 3 exemples, les individus considérés sont choisis au hasard parmi un grand nombre d’individus. Si on recommence l’expérience, il y a de fortes chances qu’on choisisse d’autres individus et qu’on obtienne des résultats différents : le résultat de l’expérience est donc bien

"aléatoire".

– Exemples 1 et 3 :après avoir choisi les individus, on réalise des mesures qui peuvent être sujettes à des erreurs expérimentales. Ceci rajoute de l’incertitude aux résultats obtenus.

On fait ensuite des hypothèses sur la loi de probabilité du n-uplet (X1, ..., Xn).Dans le cadre de ce chapitre, on supposera que ce sont des variables aléatoires indépendantes et identiquement distribuées (i.i.d). Il s’agit du cadre le plus simple, mais cette hypothèse n’est pas toujours réaliste : – Lorsqu’on considère des phénomènes indexés par le temps (cf cours M2 sur les séries temporelles),

l’hypothèse d’indépendance n’est généralement pas vérifiée. Par exemple, si (x1, x2, ..., xn)désigne le cours d’un produit financier pendant njours successifs, alors on ne peut généralement pas supposée que les observations successivesxi etxi+1 proviennent de variables aléatoires indépendantes.

– Lorsque l’on cherche à prédire une variable (variable à expliquer) à partir d’autres variables (variables explicatives), on suppose généralement que la loi de la variable à expliquer dépend des variables explicatives. L’hypothèse “identiquement distribuée” n’est plus vérifiée. Ce sera la cas dans les modèles de régression étudiés dans les chapitres suivants.

Définition. On appellen-échantillond’une loi de probabilité Pune suite(X1, ..., Xn)de v.a. i.i.d. qui suivent le loi de probabilité P. On noteraX1, ..., Xn∼^iid P

On va ensuite supposer, dans ce chapitre, que la loi de probabilité commune deX1,X2, ...,Xn est un loi de probabilité qui dépend d’un paramètre inconnuθ∈ΘavecΘ⊂R^k (“statistique paramétrique”

par opposition à “statistique non paramétrique”). On notera alors X1, ..., Xn∼^iidPθ

Par exemple, on supposera souvent que

X1, ..., Xn∼^iidN(µ, σ²)

avecN(µ, σ²)la loi normale d’espéranceµet de varianceσ². On parle alors d’échantillon gaussien. Le paramètre inconnu estθ= (µ, σ)∈R×R⁺^∗.

On cherche alors à estimerθ à partir des observations disponibles(x1, ..., xn).

Définition. Soit (X1, ..., Xn)un n-échantillon d’une loi Pθ. Unestimateurdu paramètre inconnu θ est une variable aléatoire T =g(X1, ..., Xn)qui s’exprime en fonction de(X1, ..., Xn). Une estimation de θ est alors la valeur numérique prise par cette statistique sur une réalisation particulière (x1, ..., xn), c’est à dire la quantité t=g(x1, ..., xn).

Exemple et définition. Prenons l’exemple 1 sur la qualité des thermomètres. On suppose à nouveau que(x1, ..., xn)est une réalisation d’un échantillon(X1, ..., Xn). La qualité des thermomètres est partiellement décrite par les paramètres inconnusµ=E[Xi](si les thermomètres sont de bonne qualité, alors ils devraient fournir la bonne température en moyenne, c’est à dire qu’on devrait avoir µ= 20) et

(4)

σ²=var[Xi] (qui renseigne sur la dispersion de mesures autour de la valeur moyenne : siσ= 0 alors tous les thermomètres donnent la même valeur µalors que siσ est grand, les thermomètres indiquent des températures très différentes et sont donc de mauvaise qualité).

– Un estimateur usuel de µ est alors lamoyenne empiriquedéfinie par X¯ = X1+...+Xn

n

– Un estimateur usuel de σ² est la variance empiriquedéfinie par S²=

Pn i=1X_i²

n −X¯²= 1 n

n

X

i=1

(Xi−X)¯ ²

Les estimations correspondantes sont notées x¯=^x¹^+...+x_n ⁿ ets²= ^Pⁿⁱ⁼¹_n ^x²ⁱ −¯x². Ici on obtient

¯

x= 20.08^o ets= 0.2657^o. Les thermomètres semblent donc indiquer une température légèrement supérieur à 20⁰, mais on peut se demander si cette différence est significative étant donné la faible taille de l’échantillon (20 thermomètres seulement) et la forte variabilité entre les thermomètres. Les

intervalles de confiances et les test statistiques vus dans la suite de ce cours permettront de répondre à cette question.

Exemple et définition. Prenons l’exemple 2 du sondage sur les intentions de vote lors d’une élection avec deux candidats (notés A et B). Le paramètre inconnu est la proportion πd’intentions de vote en faveur de B dans la population totale. Pour estimer cette quantité, on sonde 1000 personnes choisies au hasard, et on code les résultats de la manière suivante :

– xi= 0 si la ième personne sondée pense voter pour A – xi= 1 si la ième personne sondée pense voter pour B

On suppose que(x1, ..., xn)est une réalisation d’un échantillon(X1, ..., Xn) d’une loi de Bernoulli et le paramètre inconnu θ=π=P[Xi= 1]est le paramètre de cette loi de Bernoulli. L’expérience aléatoire consiste ici à choisir les 1000 personnes au hasard et de manière indépendante dans la "population totale". Un estimateur "naturel" de π est alors lafréquence empiriqueF de 1 dans la séquence (X1, ..., Xn), c’est à dire :

F = card{i∈ {1...n}|Xi= 1}

n =

Pn i=1Xi

n

On retrouve un cas particulier de l’exemple précédent puisqueπ=E[Xi]etF est la moyenne empirique de l’échantillon. Supposons que lors du sondage, on trouve que 480 personnes pensent voter en faveur du candidat B (i.e. 480 "1" dans la série (x1, ..., xn)). Une estimation deπest alors

f = card{i∈ {1...n}|xi= 1}

n =

Pn i=1xi

n = 0.48

Remarque. Dans la suite du cours, les variables aléatoires (par exempleXi,F,S) sont notées avec des lettres majuscules, les observations (xi) et les estimations (f,s) avec des lettres minuscules. Les paramètres inconnus sont notés avec des lettres grecques (par exemple π,µ,σ).

2.3 La méthode du maximum de vraisemblance

La fonction de vraisemblance définie ci-dessous joue un rôle fondamental en statistique.

Définition. Si la loi de probabilité du vecteur aléatoire (X1, ..., Xn)admet une densitéf(x1, ..., xn;θ) par rapport à une mesure dominante, alors on appelle fonction de vraisemblance la fonction deθ définie par

L(θ;x1, ..., xn) =f(x1, ..., xn;θ)

(5)

Dans le cas des échantillons i.i.d., la loi de probabilité jointe de (X1, ..., Xn)admet une densité (par rapport à la mesure produit) dès que la loi marginale de Xi admet une densitéf(xi;θ)et on a alors

L(θ;x1, ..., xn) =

n

Y

i=1

f(xi;θ) En pratique :

– Lorsque les Xi sont des variables aléatoires discrètes, alors on considère la densité par rapport à la mesure de comptage etf(xi;θ) =Pθ[Xi=xi].L(θ;x1, ..., xn) s’interprète alors directement comme la probabilité ou "vraisemblance" d’observer (x1, ..., xn)lorsqueθ est la vraie valeur du paramètre.

– La plupart des lois usuelles pour les variables aléatoires continues (loi normale, loi log-normale, loi gamma,...) sont définies par leurs densitésf(xi;θ)par-rapport à la mesure de Lebesgue et la fonction de vraisemblance s’exprime à partir de ces densités.

On appelle fonction de log-vraisemblancela quantité :

l(θ;x1, ..., xn) =ln(L(θ;x1, ..., xn))

La méthode du maximum de vraisemblance consiste alors, étant donnée une réalisation (x1, ..., xn)d’un échantillon de loi Pθ, à prendre comme estimation t de θune valeur de θ(si elle existe...) qui rend maximale la fonction de vraisemblance

θ→L(θ;x1, ..., xn)

On notera t=h(x1, ..., xn) =argmaxθ∈ΘL(θ;x1, ..., xn). L’estimateur du maximum de vraisemblance (EMV) est alors l’estimateur T =h(X1, ..., Xn).

Remarque. En pratique, on travaille souvent avec la fonction de log-vraisemblance qui est plus simple à manipuler (le passage au log permet de transformer le produit en somme). Pour certaines lois usuelles (loi de Bernoulli, loi de Poisson, loi Exponentielle, loi normale) , une étude de fonction (calcul des dérivés premières et éventuellement seconde, tableau de variation,...) permet de trouver le maximum de l. Lorsque ce n’est pas possible, une méthode d’optimisation numérique est utilisée. Avec R, on peut par exemple utiliser la fonction fitdistrdu package MASS.

Exemple. Si (X1, ..., Xn)est un échantillon d’une loi de Bernoulli de paramètre θ=π, alors 1−π si xi= 0

Pπ(Xi=xi) =

π si xi= 1 Ceci se réécrit sous la forme

Pπ(Xi=xi) =π^xⁱ(1−π)¹⁻^xⁱpour xi∈ {0,1}

Soit (x1, ..., xn)∈ {0,1}ⁿ une réalisation de (X1, ..., Xn). La vraisemblance est donnée par L(π;x1, ..., xn) =

n

Y

i=1

Pπ(Xi=xi)

=

n

Y

i=1

π^xⁱ(1−π)¹⁻^xⁱ

= π^Pⁿⁱ⁼¹^xⁱ(1−π)ⁿ⁻^Pⁿⁱ⁼¹^xⁱ On en déduit que

l(π;x1, ..., xn) =ln(π)

n

X

i=1

xi+ln(1−π)(n−

n

X

i=1

xi)

(6)

puis que

∂l(π;x1, ..., xn)

∂π

= Pn

i=1xi

π(1−π)− n 1−π

Donc, en étudiant le signe de la dérivée, on en déduit que la fonction de vraisemblance atteint son maximum en ^Pⁿⁱ⁼¹_n ^xⁱ. L’EMV est doncF = ^Pⁿⁱ⁼¹_n^Xⁱ. On retrouve l’estimateur usuel défini

précédemment.

Exemple. On considère les températures journalières (en degré Celsius )à Brest au cours de l’été 2008 données dans le tableau ci-dessous :

16.4 ; 14.25 ; 14.5 ; 11.8 ; 13.65 ; 12.2 ; 11.6 ; 13.2 ; 16.9 ; 17.1 ; 16.75 ; 15.2 ; 12.5 ; 12.45 ; 13.65 ; 12.15 ; 13.45 ; 15.1 ; 16.4 ; 16.5 ; 18.25 ; 17.2 ; 12.95 ; 15.25 ; 16.8 ; 14.35 ; 16.9 ; 18.3 ; 17.75 ; 15.85 ; 16.1 ; 16 ; 14.4 ; 14.35 ; 16 ; 14.65 ; 14.2 ; 15.05 ; 15.75 ; 16.7 ; 16.05 ; 14.9 ; 15.9 ; 14.5 ; 18.9 ; 16.8 ; 15.2 ; 15.55 ; 16.95 ; 15.6 ; 15.05 ; 15.5 ; 19.1 ; 20.8 ; 18.15 ; 17.4 ; 18.45 ; 17.45 ; 17.6 ; 19.25 ; 17.95 ; 17.4 ; 17.95 ; 17.1 ; 16.4 ; 17.95 ; 19.4 ; 17.05 ; 17.35 ; 15.4 ; 17.15 ; 15.8 ; 15.6 ; 15.9 ; 15.5 ; 13.25 ; 15.6 ; 15.2 ; 16.95 ; 16.25 ; 15.35 ; 16.9 ; 16.05 ; 14.55 ; 16.9 ; 16.35 ; 16.95 ; 16.3 ; 16.05 ; 16.35 ; 17.85 ; 16.65

1. Réaliser un histogramme de ces observations (on utilisera des classes de largeur 1 degré et le logiciel R).

2. On suppose dans la suite de l’exercice que ces observations sont une réalisation de n variables aléatoires(X1, ..., Xn)i.i.d. de loiN(µ, σ²). Cette hypothèse vous semble-t-elle réaliste ? 3. Quel est l’estimateur du maximum de vraisemblance de θ= (µ, σ)?

4. Application numérique.Calculer les estimations correspondantes sur les données de température journalière à Brest, puis représenter sur la figure de la question 1. la densité correspondante (attention à l’échelle !). Commentez.

5. Vérifier que vous retrouvez les résultats précédents avec la fonction fisdistr de Ret tester d’autres lois usuelles (loi gamma, loi log-normale,...).

Solution partielle :3. Calcul de la fonction de vraisemblance. Soit(X1, ..., Xn)un n-échantillon d’une loi normale de moyenne µet écart-typeσ, alors la densité de la v.a.Xi est donnée, pourxi∈R, par :

fθ(xi) = 1

√2πσexp

−(xi−µ)² 2σ²

avec θ= (µ, σ). Donc, la fonction de vraisemblance est donnée, pour(x1, ..., xn)∈Rⁿ une réalisation de (X1, ..., Xn), par :

L(θ;x1, ..., xn) =

n

Y

i=1

fθ(xi)

=

n

Y

i=1

√1

2πσexp

−(xi−µ)² 2σ²

= 1

(2π)^n/2σⁿexp

− Pn

i=1(xi−µ)² 2σ²

L’étude des points critiques montre que cette fonction atteint son maximum pour µ= ¯xet σ=s. Pour la loi normale, les estimateurs du maximum de vraisemblance deµ etσ² coïncident avec les estimateurs usuels de l’espérance et de la variance.

4. Application numérique : x¯= 15.9679^oets= 1.7846^o. Graphique : cf Figure 1

2.4 Propriétés des estimateurs

On peut toujours définir une infinité d’estimateurs pour un paramètre inconnu donné, et en pratique on cherchera à utiliser le "meilleur" de ces estimateurs. Ceci nécessite de définir ce qu’est un bon

estimateur.

(7)

10 12 14 16 18 20 22 0

0.05 0.1 0.15 0.2 0.25 0.3 0.35

Figure1 – Histogramme des températures et densité de la loi normale ajustée

2.4.1 Biais d’un estimateur

Définition. On appelle biais de l’estimateur T la quantité biais(T) =E(T)−θ

On dit que l’estimateur T estsans biais lorsquebiais(T) = 0, c’est à dire lorsque E[T] =θ. Le biais représente "l’erreur moyenne" qui est faite lorsqu’on utiliseT pour estimerθ.

Proposition. Si(X1, ..., Xn)est un n-échantillon d’une loi de moyenneE[Xi] =µ, alors X¯ est un estimateur sans biais de µ. En particulier, si (X1, ..., Xn)est un n-échantillon de Bernoulli de paramètre πalors F est un estimateur sans biais de π.

Si on suppose en outre que σ²<∞ alors E[S²] = ⁿ⁻_n¹σ².

S²est donc un estimateur biaisé de σ², et on préfère parfois utilisé l’estimateur corrigé S_corr² = n

n−1S²= 1 n−1

n

X

i=1

(Xi−X¯)²

qui est un estimateur sans biais de σ².

Remarque. De nombreux logiciels statistiques (Excel, R, ...) calculent par défaut l’estimateur sans biais de la variance S_corr² défini ci-dessus.

Démonstration. Si(X1, ..., Xn)est un n-échantillon d’une loi d’espéranceµalors E[ ¯X] = E[X1+...+Xn

n ]

= E[X1] +...+E[Xn]

= µ n On suppose queσ²<∞. Par définition,

S²= 1 n

n

X

i=1

(Xi−X)¯ ²

(8)

et de la décomposition (Xi−X¯) = (Xi−µ)−( ¯X−µ), on déduit que : S² = 1

n

X

i=1

(Xi−µ)²−2( ¯X−µ)(Xi−µ) + ( ¯X−µ)²

= 1

n

X

i=1

(Xi−µ)²−2( ¯X−µ)1 n

n

X

i=1

(Xi−µ) + ( ¯X−µ)²

= 1

n

X

i=1

(Xi−µ)²−( ¯X−µ)² Donc

E[S²] = E[1 n

n

X

i=1

(Xi−µ)²−( ¯X−µ)²]

= 1

n

X

i=1

E[(Xi−µ)²]−E[( ¯X−µ)²]

= σ²−E[( ¯X−µ)²] Il reste à calculer

E[( ¯X−µ)²] = var( ¯X)

= var(1 n

n

X

i=1

Xi)

= 1

n²var(

n

X

i=1

Xi)

= 1

n²

n

X

i=1

var(Xi)

= σ² n Finalement,

E[S²] = n−1 n σ²

2.4.2 Erreur quadratique moyenne d’un estimateur

On mesure généralement la précision d’un estimateur par son erreur quadratique moyenne.

Définition. L’erreur quadratique moyenne (EQM) de l’estimateur T définie par EQM(T) =E[(T−θ)²]

L’EQM représente l’espérance du carré de l’écart entre l’estimateur et le paramètre inconnu : plus l’EQM est faible, plus l’estimateur est précis.

Remarque. On montre facilement que

E[(T−θ)²] =var(T) +E[(T−θ)]²

c’est à dire que l’erreur quadratique moyenne est égale à la variance de l’estimateur plus le biais de l’estimateur au carré. Lorsque l’estimateur est non-biaisé, l’EQM coïncide avec la variance : parmi deux estimateurs sans biais, le plus précis est donc celui de variance minimale (cf Figure 2.4.2 : le meilleur estimateur est celui de droite). Cette formule est également utile en pratique pour calculer l’EQM des estimateurs usuels.

(9)

0 1 2 0

0.5 1 1.5 2

β₀

β 1

0 1 2

0 0.5 1 1.5 2

β₀

β 1

0 1 2

0 0.5 1 1.5 2

β₀

β 1

Figure 2 – Plusieurs réalisations de trois estimateurs différents. La vraie valeur du paramètre est le

“centre” de la cible (point de coordonnés (1,1)). Le premier estimateur (figure de gauche) est biaisé (on

“vise” systématiquement trop en bas et à gauche), alors que les deuxième (figure du milieu) et troisième estimateurs (figure de droite) sont non-biaisés. La variance du deuxième estimateur est plus forte que celle du troisième estimateur.

Proposition. Si(X1, ..., Xn)est un n-échantillon d’une loi de moyenneµ et de varianceσ²<∞, alors EQM( ¯X) =var( ¯X) =σ²

n

En particulier, si (X1, ..., Xn)est un échantillon de Bernoulli de paramètre πalors EQM(F) =var(F) =π(1−π)

n Si de plus µ4=E[(Xi−µ)⁴]<∞, alors

EQM(S_corr² ) =var(S²_corr) =µ4

n − n−3 n(n−1)σ⁴ Démonstration. (partielle)

Soit(X1, ..., Xn)un échantillon d’une loi de moyenneµet de varianceσ <∞. On a vu queX¯ est un estimateur sans biais de µet donc

EQM( ¯X) = var( ¯X)

= var(X1+...+Xn

n )

= var(X1) +...+var(Xn) n²

= σ² n Le calcul de var(S_corr² )est plus délicat...

2.4.3 L’information de Fisher

Définition. On appelle quantité d’information de Fisherapportée par un n-échantillon sur le paramètre θ la quantité suivante (si elle existe)

In(θ) =E[

∂l(θ;X1, ..., Xn)

∂θ

2

]

(10)

En pratique, il est souvent plus facile d’utiliser l’une des deux formules données dans la proposition suivante pour calculer l’information de Fisher.

Proposition. Sous des conditions générales (cf remarque ci-dessous), on a : In(θ) =var(

∂l(θ;X1, ..., Xn)

∂θ

)

In(θ) =−E[

∂²l(θ;X1, ..., Xn)

∂θ²

]

Démonstration. On se place dans le cas des variables continues. La preuve dans le cas discret est similaire en remplaçant les signesR

par des signesP

. On part de la relation : Z

Rⁿ

L(θ;x1, ..., xn)dx1...dxn = 1 (2.1) qui vient du fait queL(θ;x1, ..., xn)est la loi de probabilité d’un n-échantillon(X1, ..., Xn)de la loiPθ. Notons que, plus généralement, sig:Rⁿ →R, on a

E[g(X1, ..., Xn)] = Z

Rⁿ

g(x1, ..., xn)L(θ;x1, ..., xn)dx1...dxn

Ensuite, par définition de l, on a

∂L(θ;X1, ..., Xn)

∂θ = L(θ;X1, ..., Xn)∂l(θ;X1, ..., Xn)

∂θ (2.2)

En dérivant (2.1) par rapport àθ, et en supposant qu’on puisse intervertir les signesR

et ∂, on obtient

0 = ∂

∂θ Z

Rⁿ

L(θ;x1, ..., xn)dx1...dxn

= Z

Rⁿ

∂

∂θL(θ;x1, ..., xn)dx1...dxn

En intégrant (2.2), on obtient alors que

Z

Rⁿ

L(θ;X1, ..., Xn)∂l(θ;X1, ..., Xn)

∂θ dx1...dxn = 0 (2.3)

Par ailleurs, d’après la remarque précédente, on a Z

Rⁿ

L(θ;X1, ..., Xn)∂l(θ;X1, ..., Xn)

∂θ dx1...dxn=E[∂l(θ;X1, ..., Xn)

∂θ ]

On a doncE[^∂l(θ;X_∂θ¹^,...,Xⁿ⁾] = 0 puis

In(θ) =E[

∂l(θ;X1, ..., Xn)

∂θ

2

] puisque la v.a. ^∂l(θ;X_∂θ¹^,...,Xⁿ⁾ est centrée.

En dérivant (2.3) par rapport àθ, on obtient Z

Rⁿ

L(θ;X1, ..., Xn)∂²l(θ;X1, ..., Xn)

∂θ² +

Z

Rⁿ

∂

∂θL(θ;X1, ..., Xn) ∂

∂θl(θ;X1, ..., Xn) = 0 Puis, en utilisant à nouveau l’égalité ^∂L(θ;X_∂θ¹^,...,Xⁿ⁾ =L(θ;X1, ..., Xn)^∂l(θ;X_∂θ¹^,...,Xⁿ⁾, on obtient la deuxième égalité de la proposition.

(11)

Remarque. 1. La proposition précédente s’applique lorsque la vraisemblance est deux fois dérivable par rapport àθ (pour tout x) et qu’il est possible d’intervertir les signes∂ etR

. Ces hypothèses sont vérifiées par les lois usuelles dès que le support de la loi, c’est à dire l’ensemble

Aθ={x|f(x;θ)≥0} , ne dépend pas deθ. Un exemple classique pour lequel le support de la loi dépend deθ est la cas où les Xi suivent une loi uniforme sur[0, θ]. On vérifie alors que les formules de la proposition précédente ne sont pas vérifiées (cf Exercice 2.8).

2. En utilisant la définition de la log-vraisemblance dans le cas des échantillons i.i.d., il est facile de vérifier quel(θ;x1, ..., xn) =Pn

i=1l(θ;xi). On en déduit aisément que, si la proposition précédente s’applique, alorsIn(θ) =nI1(θ)

Exemple. Si (X1, ..., Xn)est un échantillon d’une loi de Bernoulli de paramètre θ=π, alors l(π;x1, ..., xn) =ln(π)

n

X

i=1

xi+ln(1−π)(n−

n

X

i=1

xi)

Donc

∂l(π;x1, ..., xn)

∂π

= Pn

i=1xi

v +

Pn

i=1xi−n 1−π

= Pn

i=1xi

π(1−π)− n 1−π On en déduit que E[

∂l(π;x1,...,xn)

∂π

] = 0et donc que E[

∂l(π;x1,...,xn)

∂π

] =var(

∂l(π;x1,...,xn)

∂π

), puis que l’information de Fisher est donnée par

In(π) = var(

Pn i=1Xi

π(1−π)−n π)

= n

π(1−π) En dérivant un seconde fois, on obtient

∂²

∂p²l(π;x1, ..., xn) =

n

X

i=1

xi 1−2p

π²(1−π)² + n (1−π)² puis

E[ ∂²

∂π²l(π;x1, ..., xn)] =− n π(1−π) On retrouve bien le même résultat.

Le théorème suivant est fondamental en statistique inférentielle.

Théorème. (Borne de Fréchet-Darmois-Cramer-Rao (FDCR))

Sous des conditions générales (cf remarque ci-dessous), si T est une estimateur sans biais deθ alors : var(T)≥ 1

In(θ)

Plus généralement, si T est un estimateur sans biais de g(θ), alors : var(T)≥(h^′(θ))²

In(θ)

(12)

Démonstration. On se place toujours dans le cas des variables continues.

On utilise l’inégalité de Cauchy-Schwartz : cov(T, ∂

∂θl(θ))²≤var(T)var(∂

∂θl(θ)) Ensuite, cov(T,_∂θ^∂l(θ)) =E[T_∂θ^∂l(θ)]car _∂θ^∂ l(θ)est centrée. Donc

cov(T, ∂

∂θl(θ)) = Z

Rⁿ

T(x1, ..., xn)∂

∂θl(θ;x1, ..., xn)L(θ;x1, ..., xn)dx1...dxn

= Z

Rⁿ

T(x1, ..., xn)∂

∂θL(θ;x1, ..., xn)dx1...dxn

= ∂

∂θ Z

Rⁿ

T(x1, ..., xn)L(θ;x1, ..., xn)dx1...dxn

= ∂

∂θE[T]

= g^′(θ)

Remarque. A nouveau le théorème précédent s’applique lorsqu’on peut dériver la vraisemblance deux fois par rapport à θ (pour tout x) et intervertir les signes∂ etR

. Ces conditions sont généralement vérifiées lorsque le support de la loi ne dépend pas de θ.

Le théorème de FDCR donne une borne inférieure pour la variance d’un estimateur sans biais. On dira qu’un estimateursans biais estefficacelorsque savariance est égale à la borne de FDCR. Plus la quantité d’information apportée par l’échantillon est grande, plus borne de FDCR est petite.

Par ailleurs, si il existe un estimateur efficace, alors il est unique p.s. En effet, soitT1et T2 deux estimateurs efficaces de θ.T1 etT2 sont donc sans biais et leurs variances sont égales à la borne de FDCRV. Considérons l’estimateur T3= ^T¹^+T₂ ².T3est un estimateur sans biais de θde variance var(T3) =^V₂(1 +cor(T1, T2)). Commevar(T3)≥V, on en déduit quecor(T1, T2) = 1puis que T1=T2p.s.

Exemple. Si (X1, ..., Xn)est un échantillon d’une loi de Bernoulli de paramètre θ=π, alors l’information de Fisher est donnée par

In(π) = n π(1−π)

Le théorème de FDCR nous dit tout estimateur sans biais aura une variance supérieure à ^π(1_n⁻^π). Or, nous avons vu queF = ¹_n(X1+...+Xn)est un estimateur sans biais de πet que sa variance est égale In(π)⁻¹. On en déduit qu’il s’agit de l’unique estimateur efficace deπ, et donc le meilleur (en un certain sens...)

2.4.4 Propriétés asymptotiques

On notera dans ce paragrapheTn un estimateur deθbasé sur un échantillon de taillen(X1, ..., Xn). Un bon estimateur doit avoir de bonnes "propriétés asymptotiques", c’est à dire des propriétés de

convergence lorsquen→ ∞. En particulier, on préférera des estimateurs qui sont convergents (ou

“consistants”).

Définition. Tn est un estimateurconvergent de θ lorsqueTn converge p.s. versθ lorsquen→ ∞. Proposition. Si(X1, ..., Xn)est un n-échantillon d’une loi d’espérance µ et de varianceσ²<∞alors

X¯n= X1+...+Xn

n

(13)

est un estimateur convergent de µ. En particulier, si (X1, ..., Xn)est un échantillon de Bernoulli de paramètre πalors

Fn= X1+...+Xn

n est un estimateur convergent de π.

Si de plus µ4=E[(Xi−µ)⁴]<∞ alors

S_n²= X₁²+...+X_n² n −X¯² et

S_n,corr² = n

n−1S²= 1 n−1

n

X

i=1

(Xi−X)¯ ² sont des estimateurs convergents de σ².

Démonstration. Applications directes de la loi des grands nombres (LGN).

De nombreux estimateurs vérifient un TCL, c’est à dire sont tels que

√n(Tn−θ)→ N^L (0, σ²(θ))

lorsque n→ ∞. Ce type de comportement asymptotique est couramment utilisé pour construire des intervalles de confiance ou réaliser des tests (cf paragraphes suivants) et est donc particulièrement souhaitable. On parlera de "normalité asymptotique".

Proposition. Soit (X1, ..., Xn)est un échantillon d’une loi de moyenneµ et de varianceσ²<∞alors

√n( ¯Xn−µ)→ N^L (0, σ²)

lorsquen→ ∞. En particulier, si(X1, ..., Xn)est un échantillon de Bernoulli de paramètre πet Fn= ^X¹^+...+X_n ⁿ, alors

√n(Fn−π)→ N^L (0, π(1−π)) lorsquen→ ∞.

Démonstration. utilisation directe du théorème central limite (TCL).

La proposition suivante établit que sous des conditions générales, l’EMV a de bonnes propriétés asymptotiques.

Proposition. Sous des hypothèses générales (cf rq ci-dessous), l’EMV est convergent et

asymptotiquement gaussien et la variance asymptotique est donnée par l’inverse de l’information de Fisher

√n(Tn−θ)→ N^L (0, 1 I1(θ))

Remarque. 1. On peut donc en déduire, sous certaines réserves, que pourn grandE[Tn]≈θ et var(Tn)≈ In¹(θ). Un tel estimateur est dit "asymptotiquement efficace". Toutes ces bonnes propriétés (convergence, normalité asympotitque avec variance asymptotique connue, efficacité asymptotique) justifient l’utilisation de la méthode du maximum de vraisemblance comme méthode d’estimation par défaut en statistique.

2. Pour que le théorème précédent s’applique, il faut pouvoir dériver la vraisemblance trois fois par rapport àθ(pour tout x), pouvoir intervertir les signes ∂ etR

et que Θsoit un ensemble ouvert.

Ces conditions sont généralement vérifiées lorsque le support de la loi ne dépend pas deθ.

(14)

2.5 Estimation par intervalle de confiance

Dans les paragraphes précédents, des méthodes permettant d’estimer la valeur d’un paramètre inconnuθ à partir d’observations ont été proposées. Ces méthodes fournissent seulement une valeur ("estimation ponctuelle"), mais ne permettent pas de quantifier la précision de cette estimation. Pour cela, on utilise généralement des intervalles de confiance qui peuvent s’interpréter comme des marges d’erreur.

2.5.1 Construction d’intervalles de confiance pour la moyenne d’un échantillon Gaussien lorsque la variance est connue

On suppose dans ce paragraphe que X1, ..., Xn est un n-échantillon d’une loiN(µ, σ²). On cherche à estimer µ, supposé inconnu, mais on suppose que l’écart-typeσest connu. Ceci est rarement le cas en pratique, et ce cas particulier a donc principalement un objectif pédagogique. Nous reviendrons sur la construction d’intervalles de confiance la moyenne d’un échantillon sous des hypothèses plus réalistes dans la suite de ce cours.

Avec les hypothèses ci-dessus, on peut montrer queX¯ ∼ N(µ,^σ_n²)puis que√n^X^¯⁻_σ^µ ∼ N(0,1)et donc P[uα/2≤√

nX¯−µ

σ ≤u1−α/2] = 1−α avecuαle quantile d’ordreαde la loiN(0,1), ce qui se récrit

P[ ¯X+uα/2

√σn ≤µ≤X¯+u1−α/2

√σn] = 1−α

L’intervalle [ ¯X+uα/2√σn; ¯X+u1−α/2√σn]est un intervalle aléatoire (puisque les bornes dépendent des variables aléatoiresX1, ..., Xn) qui contient la vraie valeur du paramètreµavec une probabilité1−α.

Un tel intervalle est appelé intervalle de confiance au niveau de confiance 1−αpourµ.

En pratique les quantiles de la loiN(0,1)peuvent être obtenus en utilisant des tables statistiques ou des logiciels adaptés (R, Matlab, SAS, Excel...)

Définition : l’intervalle aléatoire[a(X1, ..., Xn);b(X1, ..., Xn)]est appeléintervalle de confianceau niveau de confiance1−αpourθsi P[a(X1, ..., Xn)≤θ≤b(X1, ..., Xn)]] = 1−α.

2.5.2 Construction d’intervalles de confiance pour un échantillon quelconque Lorsque la taille de l’échantillon nest suffisamment grande, on peut construire des intervalles de confiance pour la moyenneµen utilisant les propriétés asymptotiques deX¯ et S² données ci-dessus.

Plus précisément, soit(X1, ..., Xn)un n-échantillon d’une loi vérifiantvar(Xi) =σ²<+∞. Pour "n grand", d’après le TCL, on a :

√nX¯ −µ

σ ≈ N(0,1)

Cette approximation est valable même si l’échantillon n’est pas gaussien et permet de faire des

intervalles de confiance lorsqueσest connu. Lorsqueσest inconnu, on peut utiliser le fait queS² est un estimateur convergent deσ², et donc pour "n grand", on a

S≈σ Finalement, on en déduit que pour "n grand" :

√nX¯ −µ

S ≈ N(0,1)

Une démonstration rigoureuse de ce résultat peut être obtenue en utilisant le lemme de Slutsky : on peut montrer que, sous les conditions d’application du TCL,√

n^X^¯_S⁻^µ converge en loi vers une loiN(0,1).

En pratique, on suppose généralement que cette approximation est valide dès que n≥30( !). On a alors :

(15)

P[u_α/2≤√nX¯−µ

S ≤u₁₋_α/2]≈1−α puis

P[ ¯X+uα/2

√Sn ≤µ≤X¯+u1−α/2

√Sn]≈1−α

L’intervalle [ ¯X+uα/2√S

n; ¯X+u1−α/2√S

n]est appelé "intervalle de confiance asymptotique" au niveau de confiance1−αpourµ.

Exemple. On reprend les données de température à Brest (cf paragraphe 2.3).

1. Donner un intervalle de confiance à 95% pour la température moyenne, discuter la validité des hypothèses sur lesquelles repose la construction de cet intervalle.

2. Une agence de voyage prétend que la température moyenne à Brest en été est de 19^o. Qu’en pensez-vous ?

2.5.3 Construction d’intervalles de confiance pour une proportion

Il est également possible de construire des intervalles de confiance pour une proportion lorsque n est grand. Soit X1, ..., Xn un n-échantillon d’une loi de Bernoulli de paramètreπ. D’après le TCL, on sait que pour n “grand” :

√n F−π

pπ(1−π) ≈N(0,1)

CommeF est un estimateur consistent deπ, pour n “grand”, on peut remplacer le dénominateur par F(1−F)(de manière plus formelle, on peut utiliser le lemme de Studsky), et on a alors :

√n F−π

pF(1−F) ≈N(0,1) (2.4)

puis

P[uα/2≤√

n F−π

pF(1−F) ≤u1−α/2]≈1−α et enfin

P[F+uα/2

pF(1−F)

√n ≤π≤F+u1−α/2

pF(1−F)

√n ]≈1−α Donc[F+uα/2

√_F(1

−F)

√n ;F+u1−α/2

√_F(1

−F)

√n ]est un intervalle de confiance asymptotique au niveau de confiance1−αpour π.

Remarque. En pratique, on suppose généralement que l’approximation (2.4) est valable dès que nπ≥5 etn(1−π)≥5. Comme π est inconnu en pratique, on vérifie a posteriori si les conditions sont vérifiées pour les bornes de l’intervalle de confiance, c’est à dire n(F−uα/2

√F(1−F)

√n )≥5 et n(1−F−u1−α/2

√F(1−F)

√n )≥5. Si ces conditions ne sont pas vérifiées, il est possible de construire des intervalles de confiance en utilisant la loi exacte de F (on sait quenF suit une loi Binomiale).

Exemple. On reprend l’exemple du sondage.

1. Donner un intervalle de confiance à 95%pour les intentions de vote.

2. Combien de personne faudrait-il sonder pour être certain d’obtenir un intervalle de confiance à 95%dont la largeur est inférieur à 0.1%?

(16)

2.6 Tests statistiques

2.6.1 Généralité sur les tests

Un test statistique permet de vérifier si certaines hypothèses faites sur la valeur des paramètres sont réalistes ou non. Plus précisément, dans le cadre de ce cours, nous nous intéresserons à tester des hypothèses de la forme

H0:θ∈Θ0 contre l’hypothèse alternativeH1:θ /∈Θ0

avecΘ0⊂Θun sous ensemble de Θ.

On distingue usuellement deux types d’erreurs :

– L’erreur de première espècequi consiste à rejeterH0 alors queH0 est vraie. On appellerisque de première espèce αla probabilité de choisirH1 alors queH0est vraie.

– L’erreur de deuxième espècequi consiste à accepterH0 alors queH0 est fausse. On appelle risque de deuxième espèceβ la probabilité de choisirH0alors queH0 est fausse.

En pratique, on fixe généralementα(valeurs courantes : 5% ou 1%) etH0 joue donc un rôle plus important que H1.1−β est appelé lapuissance du test: pour un risque de première espèceαfixé, on cherche à construire le test dont la puissance est la plus grande !

2.6.2 Tests pour une moyenne

On dispose d’un n-échantillon(X1, ..., Xn)d’une loi d’espérance inconnueµ=E[Xi]et on veut tester l’hypothèse simple :

H0:µ=µ0 contre l’hypothèse alternativeH1:µ6=µ0

avecµ0 une valeur fixée.

– Premier cas :supposons que(X1, ..., Xn)∼^iidN(µ, σ²)avecσconnue (cf paragraphe sur les intervalles de confiance). On a alors :

√nX¯−µ

σ ∼ N(0,1) Donc, siH0est vraie, on aµ=µ0 et

PH0[uα/2≤√

nX¯ −µ0

σ ≤u1−α/2] = 1−α On adopte alors la règle de décisionsuivante :

– On accepteH0si √n^X^¯⁻_σ^µ⁰ ∈[uα/2, u1−α/2].

– On refuseH0 sinon.

Remarque. 1. On accepte doncH0 lorsque , X¯ ∈[µ0+uα/2

√σn, µ0+u1−α/2

√σn]

c’est à dire lorsque X¯ est “suffisamment proche” deµ0. La règle de décision est construite pour que le risque de première espèce soit bien égal à α.

2. Lorsqu’on fait un test avec un logiciel de statistique (R, SAS, Excel,...), le résultat est donné sous la forme d’une "p-value" (ou "degré de signification"). Pour le test précédent, cette p-value est définie par

pv =P[|Z|>|√

n¯x−µ0

σ |]

avec Z une variable gaussienne centrée-réduite etx¯ la moyenne observée sur l’échantillon. On vérifie aisément qu’on accepte H0 avec un risque de première espèce αsi et seulement si pv> alpha. La p-value est souvent interprétée comme une "mesure" de la vraisemblance de l’hypothèse H0 : une p-value faible indique que l’hypothèse H0 est peu vraisemblable.

(17)

– Deuxième cas :on ne suppose plus que l’échantillon est gaussien ni que la varianceσ² est connue.

Par contre, on suppose que nest suffisamment grand (n≥30?) pour que l’approximation

√nX¯ −µ

S ≈N(0,1) soit valable. Alors, si H0 est vraie, on aµ=µ0 et

PH0[uα/2≤√

nX¯−µ0

S ≤u1−α/2] = 1−α On adopte alors la règle de décision suivante :

– On accepteH0si √n^X^¯⁻_S^µ⁰ ∈[uα/2, u1−α/2].

– On refuseH0 sinon.

Remarque. Ici la p-value du test est donnée par pv=P[|Z|>|√

nx¯−µ0

s |]

avec Z une variable gaussienne centrée-réduite et ¯x(resp.s) la moyenne (resp. l’écart-type) empirique calculée sur l’échantillon

Exemple. Une agence de voyage prétend que la température moyenne à Brest en été est de 22^o. Cette affirmation est-elle en accord avec les températures observés pendant l’été 2008 (cf chapitre 2.3) ? Quelle est la p-value du test ?

2.6.3 Test pour une proportion

On dispose d’un n-échantillon(X1, ..., Xn)d’une loi de Bernoulli de paramètreπinconnu, et on veut tester l’hypothèse simple

H0:π=π0 contre l’hypothèse alternativeH1:π6=π0

On a vu que pour n "grand" (cf paragraphe sur les intervalles de confiance, on suppose généralement que cette approximation est valable lorsquenπ≥5et n(1−π)≥5), on a

√n F−π

pπ(1−π) ≈N(0,1) Donc, siH0 est vraie, on aπ=π0et

PH0[uα/2≤√n F−π0

pπ0(1−π0) ≤u1−α/2]≈1−α On adopte alors la règle de décision suivante :

– On accepteH0si √n√_π^F⁻^π⁰

0(1−π0)∈[uα/2, u1−α/2].

– On refuseH0sinon.

Exemple. Afin d’estimer les intentions de vote lors du deuxième tour d’une élection présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensent voter pour le

candidat A et 480 pour le candidat B. Etant donnés les résultats de ce sondage, peut-on en déduire quel candidat va gagner l’élection ?

2.7 Exercices sur le chapitre 2

Exercice 2.1. Lors du contrôle d’un chaîne de médicaments, on s’intéresse au nombre de comprimés défectueux dans un lot. Les tests effectués sur 20 lots choisis au hasard ont donné les résultats suivants :

1,0,0,3,2,0,5,2,0,0,1,2,1,3,0,1,0,0,2,7

(18)

On supposera que ces observations proviennent d’un échantillon d’une loi de probabilité inconnue, d’espérance mathématique µet de variance σ².

a. On considère les quatre estimateurs suivants pourµ: – T1=X1

– T2= ^X¹^+X₂ ² – T3= ^X¹^+X₃ ² – X¯ = ^X¹^+X²_n^+...+Xⁿ

Que représentent Xi etn dans la définition des estimateurs ? Quelles hypothèses sont faites sur X1, X2, ..., Xn?

Calculer le biais, la variance et l’erreur quadratique moyenne de ces 4 estimateurs. Quel est le meilleur estimateur ? Quelle est l’estimation correspondante ?

b. Proposer un estimateur deσ² et calculer l’estimation correspondante.

c. Proposer un estimateur de la proportion de lots qui contiennent au moins un comprimé défectueux et calculer l’estimation correspondante.

Exercice 2.2. Existe-t-il un estimateur sans biais du paramètreθ= ¹_π pour un échantillon de taille 1 d’une loi de Bernoulli de paramètre π?

Exercice 2.3. Soit (X1, ..., Xn)n variables aléatoires i.i.d. d’une loi de moyenneµet de variance σ². a. Donner une condition nécessaire et suffisante sur les constantes réellesa1, ..., an pour quePn

i=1aiXi

soit un estimateur sans biais de µ.

b. Parmi tous les estimateurs deµ de la formePn

i=1aiXi, quel est celui de variance minimale ? Quel est le biais de cet estimateur ?

c. Parmi tous les estimateurs deµ de la formePn

i=1aiXi, quel est celui dont l’erreur quadratique moyenne est minimale ?

d. Parmi les estimateurs sans biais deµde la forme Pn

i=1aiXi, quel est celui de variance minimale ? Exercice 2.4. Soit (X1, ..., Xn)n variables aléatoires i.i.d. qui suivent une loi normale d’espérance 0 et de variance σ². On considère l’estimateur suivant pourσ² :T = _n¹Pn

i=1X_i² a. Calculer le biais, la variance et l’erreur quadratique moyenne de cet estimateur.

b. Etudier les propriétés asymptotiques de l’estimateur (convergence, normalité asymptotique).

Exercice 2.5. On a observé les durées de vie (en heure) de 30 composants électroniques. Les résultats suivants ont été obtenus : 0.1 ; 7.4 ; 1.0 ; 7.9 ; 2.1 ; 1.8 ; 17.9 ; 9.3 ; 6.5 ; 3.3 ; 5.6 ; 7.7 ; 0.1 ; 24.3 ; 8.1 ; 10.0 ; 11.9 ; 1.6 ; 2.7 ; 0.5 ; 5.8 ; 42.5 ; 5.1 ; 2.0 ; 0.2 ; 15.0 ; 3.5 ; 6.4 ; 0.6 ; 3.3

On admettra que P30

i=1xi = 223.5 etP30

i=1x²_i = 3826.8.

Première partie. On suppose dans cette première partie que la durée de vie des composants

électroniques suit une loi exponentielle de paramètre inconnu θ >0. On rappelle que la densité de cette loi est donnée par :

fθ(x) = 1

θexp(−x θ)

a. Construire un estimateur deθ en utilisant la méthode des moments et donner l’estimation correspondante.

b. Calculer l’estimateur du maximum de vraisemblance Tn de θainsi que l’estimation correspondante.

c. Calculer le biais et l’erreur quadratique moyenne deTn. Cet estimateur est-il efficace ?

d. Etudier les propriétés asymptotiques deTn (convergence, normalité asymptotique). En déduire un intervalle de confiance asymptotique à 95% pour θ.

e. Calculer la fonction de répartition de la loi exponentielle, puis en déduire un estimateur de la probabilité que la durée de vie d’un composant soit supérieure à une durée quelconque t≥0. En déduire une estimation de la probabilité que la durée de vie d’un composant soit supérieure à 20h, 30h et 40h et comparer ces résultats avec les fréquences empiriques calculées à partir des données. Quel est le meilleur estimateur ?

f. Tracer sur un même graphique la densité de la loi exponentielle ajustée et un histogramme décrivant la répartition des durées de vie observées (on utilisera un découpage en classes de largeur 3). Discuter la qualité de l’ajustement.

(19)

Deuxième partie. On suppose maintenant que la durée de vie des composants électroniques suit une loi dont la densité de probabilité est donnée par :

fθ(x) = _x

θ²exp(−^xθ) si x≥0

0 sinon (2.5)

avec θ >0un paramètre inconnu.

a. Calculs préliminaires. On pose, pourn≥0, Jn(θ) =

Z +∞ 0

xⁿexp(−x θ)

1. Montrer, à l’aide d’une intégration par partie, que pour n≥0 Jn+1(θ) = (n+ 1)θJn(θ). En déduire queJn(θ) =θⁿ⁺¹n!

2. En déduire que fθ définit bien une densité, puis que si que est une variable aléatoire dont la loi admet la densitéfθ alorsE[X] = 2θetvar(X) = 2θ²

3. Construire un estimateur de θen utilisant la méthode des moments.

b. Calculer l’estimateur du maximum de vraisemblance Tn de θ, ainsi que l’estimation correspondante.

c. Calculer le biais et l’erreur quadratique moyenne deTn. Cet estimateur est-il efficace ?

d. Etudier les propriétés asymptotiques deTn. En déduire un intervalle de confiance asymptotique à 95% pourθ.

Exercice 2.6. Il y a en France 17800 passages à niveau, et on a relevé le nombre d’accidents mortels (hors suicide) sur ces passages entre 1985 et 1997. Les nombres observés sont les suivants :

– 1985 : 3 – 1988 : 2

– 1991,1993,1995,1997 : 1

On suppose que le nombre d’accidents X au cours d’une année suit une loi de poisson de paramètre θ >0 inconnu. On a alors, pourk≥0,

P[X =k;θ] = θ^kexp(−θ) k!

On admettra queE[X] =θ etvar(X) =θ.

a. Calculer l’estimateur du maximum de vraisemblance deθ, puis une estimation deθ basée sur les observations.

b. Calculer le biais et l’erreur quadratique moyenne de l’estimateur de la questiona., puis étudier ses propriétés asymptotiques. Cet estimateur est-il efficace ?

c. Donner un intervalle de confiance asymptotique à 95% pourθ.

Exercice 2.7. Soit (X1, ..., Xn)un n-échantillon d’une variable aléatoire normale de moyenneµ et d’écart typeσ. On rappelle que la densité de Xi est donnée par

fθ(x) = 1 σ√

2πexp(−(x−µ)² 2σ² ) avec θ= (µ, σ).

Première partie. On suppose dans cette partie que σest connu etµ inconnu.

a. Calculer l’estimateur du maximum de vraisemblance deµ ainsi que la quantité d’information de Fisher apportée par l’échantillon sur ce paramètre. Comment varie cette quantité avec σ? Commenter.

b. L’estimateur de la question précédente est-il efficace ?

Deuxième partie. On suppose dans cette partie queµ est connu etσinconnu.

a. Calculer l’estimateur du maximum de vraisemblance deσ ainsi que la quantité d’information de Fisher apportée par l’échantillon sur ce paramètre.

b. L’estimateur de la question précédente est-il efficace ?

Troisième partie. On suppose dorénavant queµ etσsont inconnus. Calculer l’estimateur du maximum de vraisemblance correspondant.

(20)

Exercice 2.8. Soit (X1, ..., Xn)des variables aléatoires indépendantes et identiquement distribuées de loi uniforme sur l’intervalle [0, θ]. La densité deXi est alors donnée par

f(x;θ) = ₁

θ si x∈[0, θ]

0 sinon

a. Vérifier quef(.;θ)est bien une densité et montrer que l’espérance et la variance de cette loi sont données par E[X] =θ/2et var(X) =θ²/12.

b. Donner un estimateurTn de θ par la méthode des moments.

1. Calculer le biais et la variance de cet estimateur.

2. Etudier les propriétés asymptotiques deθ (convergence, normalité asymptotique).

3. En déduire un intervalle de confiance asymptotique à 95% pourθ.

c. Montrer que Mn=max(X1, ..., Xn)est l’estimateur du maximum de vraisemblance deθ.

1. Montrer queFMn, la fonction de répartition de Mn, est FMn(m) =m

θ n

1l[0,θ](m) +1l]θ,+∞[(m)

2. En déduire le biais et la variance deMn ainsi qu’un estimateur sans biais deθ.

3. Montrer que pour toutǫ >0,P[Mn≤θ−ǫ]→0 lorsquen→+∞. En déduire que P[|Mn−θ| ≥ǫ]→0 lorsquen→+∞.

4. Montrer que pourx≥0,P[n(θ−Mn)≤x]→1−exp −^xθ

lorsquen→+∞. En déduire que n(θ−Mn)converge en loi lorsque n→+∞et donner la loi limite. Comparer avec la théorie classique sur les propriétés asymptotiques de l’estimateur du maximum de vraisemblance vue en cours.

5. Déduire de la question précédente un intervalle de confiance asymptotique à 95% pourθ d. Quel est le meilleur estimateur deθ :Tn ouMn?

e. On suppose maintenant que(X1, ..., Xn) sont des variables aléatoires indépendantes et identiquement distribuées de loi uniforme sur l’intervalle[a, b]avec θ= (a, b)∈R² un paramètre inconnu. Quel est l’estimateur du maximum de vraisemblance deθ? Donner également un estimateur de θ en utilisant la méthode des moments.

Exercice 2.9. Une entreprise envisage de s’implanter sur le marché espagnol pour vendre un nouvel apéritif de sa fabrication. Ce marché n’est intéressant que si la consommation moyenne par an et par habitant est supérieure à 0.20 litre. Si cette consommation moyenne est comprise entre 0.20 litre et 0.40 litre, elle exportera à partir de la France. Si la consommation moyenne dépasse 0.40 litre, elle envisage la création d’une unité de production en Espagne. Un enquête auprès de 400 personnes montre que, sur cet échantillon, la consommation moyenne est de 0.23 litre pour un écart type de 0.2 litre. Quelle décision faut-il prendre ?

Exercice 2.10. Afin d’évaluer le nombre N d’individus d’une espèce animale vivant sur une île, on propose d’adopter la méthode de capture-recapture. Pour cela, on capture 800 individus. Ces individus, qui correspondent à la proportion p du nombre total des individus vivant sur l’ile, sont marqués puis relâchés. On recapture ultérieurement 1000 animaux parmi lesquels on dénombre 250 animaux marqués lors de la première capture.

a. En utilisant les résultats obtenus lors de la deuxième capture, proposer une estimation de p ainsi qu’un intervalle de confiance à 95%.

b. Ecrire la relation qui existe entre N et p et en déduire une estimation de N ainsi qu’un intervalle de confiance à 95%

Exercice 2.11. Un fabricant de conserves de petits pois produit des boîtes dont l’étiquette annonce un poids net égoutté de 560g. Il prélève un lot de 200boites pour s’assurer qu’il n’aura pas d’ennui à l’issue d’un contrôle éventuel. Il obtient une moyenne empirique de 555.7 et un écart type de 9.47Réaliser un test afin de vérifier si les observations sont en accord avec le poids indiqué sur l’étiquette.