P. Ailliot
30novembre 2011
1 Introdution aux méthodes de régression
L'objetifgénéraldelarégressionest d'expliquerunevariable
Y
,diteréponse,variableexogèneouvariable àexpliquer,enfontionde
p
variablesx 1 , ..., x p
,ditesvariablesexpliativesou endogènes.Ondisposed'observationsdeesvariablessurn
individus,'estàdired'untableaudedonnéesdelaforme:
y 1 x 1,1 x 1,2
...x 1,p
y 2 x 2,1 x 2,2
...x 2,p
.
.
. .
.
. .
.
. .
.
. .
.
.
y n x n,1 x n,2
...x n,p
Table1Lignes:individus,Colonnes:variables
Lapremièreolonneest lavariableàprédireàpartirdesvariablesexpliativesdonnéesdansles
p
dernièresolonnes.
Lesméthodesderégressionsonttrès ourammentutiliséesenassuraneetennane.Deux
exemplesserontpluspréisémentétudiésdansleadredeeours:
Assuranedommage:lesmodèlesderégressionsontourammentutiliséspourprévoirla
primepured'unassuréenfontiondesonprol. Onherheparexempleàprédirelenombre
etlesmontantsdessinistresd'unassuréauours d'uneannée enfontiondesonsexe,sonâge,
sonmétier(CSP),larégionoùilvit,etand'adapter aumieux latariationauprolde
l'assuré...
Tables de mortalité :lestablesdemortalitésdériventladémographied'unepopulation
donnée,typiquementlenombre
N x,t
desurvivantsquiontl'âgex
l'annéet
.Lesmodèlesderégressionsontourammentutiliséspourprévoirl'évolutionfuturedelapopulationetréaliser
destables demortalitéprospetives.Cestables prospetivessontutiliséespourdebombreux
alulsatuarielsenassuranevie.
Cesdiérentesvariablespeuventêtresoit
quantitatives à valeurs ontinues(ex:age,température,montant...)
quantitatives à valeurs disrètes,parexempleàvaleursbinaires(ex:présene/absene
d'unemaladie)ouentières(ex:nombredesinistres)
qualitatives (ex:CSP,région,sexe).
Lanature desvariablesonditionnefortementlaméthodederégressionutilisée:
danslehapitre4,touteslesvariablessontsupposéesêtrequantitativesontinueset on
introduiralarégression linéairemultiplequiest unegénéralisationdelarégression
linéairesimpleétudiée enL3
maisonautoriseraertainesvariablesexpliativesàêtrequalitativesouquantitativesdisrètes
etonintroduiral'analyse de lavarianeet l'analyse de la ovariane
Leshapitres2et3sontdesrappelsdesoursdeL3etsontdespré-requisdeeours.Le
hapitre2rappelleertainesnotionsessentiellesduours destatistique:estimation, intervallede
onane,test statistique,méthodedumaximumdevraisemblane,...Lehapitre3rappelle
ertainespropriétésdesveteursgaussiensetdesprojetionsorthogonales.Cesontlesprinipaux
outilsmathématiques utilisésdanslesdémonstrationsdeshapitres4et5.
2 Introdution à la statistique inférentielle
Pourplusdedétails,onpourraonsulter lesouvragessuivants:
HussonF.etPagèsJ.(2005),Statistiquesgénéralespour utilisateurs.2- Exeries etorrigés,
PressesUniversitairesdeRennes.
Knight,K.(1999),Mathematial Statistis,Chapman andHall.
PagèsJ.(2005),Statistiques générales pourutilisateurs. 1- Méthodologie, PressesUniversitaires
deRennes.
Saporta,G.(2006),Probabilités,analysesdesdonnéesetstatistiques,EditionsTehnip,2eédition.
2.1 Introdution
Lesexemplesi-dessousservirontàillustrerehapitre:
Exemple1: ontrle de qualité.Un lientommandeàsonfournisseurunlotde10000
thermomètres.Andetesterlaqualitédesthermomètres,lelientenhoisit20auhasardet
lesplonge dansunliquideà20degrés.Ilobtientlesrésultatssuivants:
20.2,20.4,20.1,19.9,19.7,20,20.5,19.9,19.9,20.1,20.4,20.6,20,19.8,20.3,19.6,19.8,20.1,
20.3,20
Quepeut-onendéduiresurlaqualitédesthermomètres?Est-equ'ilsdonnentlabonne
températureenmoyenne?Avequellepréision?
Exemple2: sondage.And'estimerlesintentionsdevotelorsdudeuxièmetourd'une
eletionprésidentielle,uninstitut réaliseunsondage.Sur1000personnes interrogéesau
hasard,520pensentvoterpourleandidatAet 480pourleandidatB.Quepeut-onen
déduiresurlesintentionsdevotedanslapopulationFrançaise?Avequellepréisionle
sondageeetué permet t'ild'estimerlepourentaged'intentiondevoteenfaveurduandidat
A?Peutondéduiredeesondage,aveune ertaineonane,queàladatedusondagele
andidatAestentête?
Exemple3: eaité d'un médiamenten médeine.And'étudierl'eetd'un
nouveaumédiamentenvuederéduirelatensionartérielle,onamesurélatension(enmmde
Hg)sur12patientsavantet aprèstraitement.Lesvaleurssuivantesontétéobtenues:
Avant 200 174 198 170 179 182 193 209 185 155 169 210
Après 191 170 177 167 159 151 176 183 159 145 146 177
Peut-ononlurequeemédiamentréduitlatensionartérielle?
Ondisposedonde
n
observationsnotées(x 1 , ..., x n ) ∈ R n
(fexemplesi-dessus).Onvasupposertoutd'abordqueesobservationssontuneréalisationd'uneexpérienealéatoire,'està
direqu'ilexistedesvariablesaléatoiresréelles
(X 1 , ..., X n )
dénies surunespaeprobabilisé(Ω, F , P)
tellesque(x 1 , ..., x n ) = (X 1 (ω), ..., X n (ω))
aveω ∈ Ω
.Ceipermet demodéliserl'aléatoirequiestgénéralementprésentedanslereueildesdonnées.
Parexemple,danslesexemplesintroduits i-dessus:
parmiungrandnombred'individus.Si onreommenel'expériene,ilyadefortes hanes
qu'onhoisissed'autresindividuset qu'onobtiennedesrésultatsdiérents:lerésultatde
l'expérieneestdonbien"aléatoire".
Exemples1et3 :aprèsavoirhoisilesindividus,onréalisedesmesuresquipeuventêtre
sujettesàdeserreursexpérimentales.Cei rajoutedel'inertitudeauxrésultatsobtenus.
Onfaitensuitedeshypothèsessurlaloideprobabilitédun-uplet
(X 1 , ..., X n )
.Dans leadrede e hapitre, onsupposera que e sontdes variablesaléatoires indépendantes et
identiquement distribuées(i.i.d). Ils'agitduadreleplussimple,maisettehypothèsen'est
pastoujoursréaliste:
Lorsqu'ononsidèredesphénomènesindexésparletemps(foursM2surlesséries
temporelles),l'hypothèsed'indépendanen'estgénéralementpasvériée. Parexemple,si
(x 1 , x 2 , ..., x n )
désigneleoursd'unproduit nanierpendantn
jourssuessifs,alorsonnepeutgénéralementpassupposéequelesobservationssuessives
x i
etx i+1
proviennentde variablesaléatoiresindépendantes.Lorsquel'onherheàprédireunevariable(variable àexpliquer)àpartird'autresvariables
(variablesexpliatives),onsupposegénéralementquelaloidelavariableàexpliquerdépend
desvariablesexpliatives.L'hypothèseidentiquementdistribuée n'estplusvériée.Ce serala
asdanslesmodèlesderégressionétudiésdansleshapitressuivants.
Dénition. On appellen-éhantillond'une loide probabilité
P
une suite(X 1 , ..., X n )
de v.a.i.i.d. quisuiventle loide probabilité
P
.On noteraX 1 , ..., X n ∼ iid P
Onvaensuitesupposer,dansehapitre,quelaloideprobabilitéommune de
X 1
,X 2
,...,X n
estunloideprobabilitéquidépendd'unparamètre inonnu
θ ∈ Θ
aveΘ ⊂ R k
(statistique paramétrique paroppositionàstatistiquenonparamétrique).OnnoteraalorsX 1 , ..., X n ∼ iid P θ
Parexemple,onsupposerasouventque
X i ∼ iid N (µ, σ 2 )
pour
i ∈ { 1...n }
.Leparamètreinonnuestalorsθ = (µ, σ) ∈ R × R + ∗
.Onherhealorsàestimer
θ
àpartirdesobservationsdisponibles(x 1 , ..., x n )
.Dénition. Soit
(X 1 , ..., X n )
unn-éhantillond'une loiP θ
.Unestimateurdu paramètreinonnu
θ
est unevariable aléatoireT = g(X 1 , ..., X n )
qui s'exprimeen fontionde(X 1 , ..., X n )
.Uneestimation de
θ
estalors la valeur numérique prisepar ettestatistiquesurune réalisation partiulière(x 1 , ..., x n )
,'est àdirela quantitét = g(x 1 , ..., x n )
.Exempleetdénition. Prenons l'exemple 1surlaqualité desthermomètres. Onsupposeà
nouveauque
(x 1 , ..., x n )
est uneréalisation d'unéhantillon(X 1 , ..., X n )
.Laqualitédesthermomètresest partiellement déritepar lesparamètresinonnus
µ = E[X i ]
(silesthermomètressont de bonnequalité, alors ils devraient fournirla bonne températureenmoyenne,
'estàdirequ'on devrait avoir
µ = 20
)etσ 2 = var[X i ]
(quirenseignesurladispersiondemesuresautourdela valeur moyenne:si
σ = 0
alors touslesthermomètres donnentla même valeur alorssiσ
estgrand, lesthermomètresindiquentdes températurestrèsdiérentes).Unestimateurusuel de
µ
estalors la moyenne empiriquedénieparX ¯ = X 1 + ... + X n
n
Unestimateurusuel de
σ 2
estla variane empirique dénieparS 2 =
P n i=1 X i 2
n − X ¯ 2 = 1 n
n
X
i=1
(X i − X) ¯ 2
Les estimationsorrespondantessont notées
x ¯ = x 1 +...+x n n
ets 2 = P n i=1 n x 2 i − x ¯ 2
.Ii onobtient¯
x = 20.08 o
ets = 0.2657 o
.Lesthermomètressemblentdon indiquer unetempératurelégèrement supérieurà20 0
,maison peutsedemander siettediérene estsigniativeétantdonné lafaibletaillede l'éhantillon(20 thermomètres seulement)etla forte variabilité entreles
thermomètres. Les intervallesde onanesetlestest statistiquesvusdansla suitede eours
permettront derépondreàettequestion.
Exempleetdénition. Prenons l'exemple 2dusondagesurlesintentionsde vote lorsd'une
életion avedeuxandidats (notésA etB). Leparamètreinonnuestla proportion
π
d'intentionsde vote enfaveur de B dansla population totale. Pourestimer ettequantité,on
sonde1000personneshoisies auhasard,et onode lesrésultatsde la manièresuivante :
x i = 0
sila ième personnesondée pensevoterpourA
x i = 1
sila ième personnesondée pensevoterpourBOnsupposeque
(x 1 , ..., x n )
estune réalisation d'unéhantillon(X 1 , ..., X n )
d'une loide Bernoullietleparamètreinonnu
θ = π = P[X i = 1]
est leparamètredeetteloi deBernoulli. L'expériene aléatoire onsisteiiàhoisir les1000 personnesauhasardetde manièreindépendantedansla"population totale".Unestimateur"naturel" de
π
estalors la fréquene empiriqueF
de1
dansla séquene
(X 1 , ..., X n )
,'est àdire :F = card { i ∈ { 1...n }| X i = 1 }
n =
P n i=1 X i
n
Onretrouveunaspartiulier del'exemple préédentpuisque
π = E[X i ]
etF
estla moyenneempiriquede l'éhantillon. Supposonsquelorsdusondage, on trouve que480personnespensent
voterenfaveur duandidat B (i.e. 480"1"dansla série
(x 1 , ..., x n )
). Uneestimation deπ
estalors
f = card { i ∈ { 1...n }| x i = 1 }
n =
P n i=1 x i
n = 0.48
Remarque. Dans lasuiteduours,les variables aléatoires (parexemple
X i
,F
,S
)sont notéesavedeslettresmajusules,lesobservations (
x i
) etlesestimations(f
,s
) ave deslettresminusules.Les paramètresinonnussont notésave deslettresgreques(parexemple
π
,µ
,σ
).2.2 La méthode du maximum de vraisemblane
Lafontiondevraisemblanedéniei-dessousjoueunrle fondamentalenstatistique.
Dénition. Si la loide probabilitéduveteur aléatoire
(X 1 , ..., X n )
admet unedensitéf (x 1 , ..., x n ; θ)
parrapportàune mesuredominante,alors on appellefontion devraisemblanela fontionde
θ
dénieparL(θ; x 1 , ..., x n ) = f (x 1 , ..., x n ; θ)
Dansleasdeséhantillons i.i.d.,la loide probabilité jointede
(X 1 , ..., X n )
admet une densité(parrapport àla mesureproduit)dèsquela loi marginalede
X i
admet unedensitéf (x i ; θ)
etonaalors
L(θ; x 1 , ..., x n ) =
n
Y
i=1
f (x i ; θ)
Enpratique:
Lorsqueles
X i
sont desvariables aléatoire disrètes, alors ononsidèrela densité parrapport àla mesure deomptage et
f (x i ; θ) = P θ (X i = x i )
.L(θ; x 1 , ..., x n )
s'interprètealors diretement ommela probabilité ou"vraisemblane" d'observer(x 1 , ..., x n )
lorsqueθ
estlavraievaleur duparamètre.
Laplupartdesloisusuellespour lesvariablesaléatoiresontinues(loinormale, loilog-normale,
loigamma,...) sontdéniesparleurs densités
f (x i ; θ)
par-rapportàla mesurede Lebesgue.Onappellefontion de log-vraisemblane laquantité :
l(θ; x 1 , ..., x n ) = ln(L(θ; x 1 , ..., x n ))
Laméthode dumaximumde vraisemblane onsistealors,étantdonnéeuneréalisation
(x 1 , ..., x n )
d'unéhantillonde loiP θ
,àprendreomme estimationt
deθ
une valeur deθ
(si elleexiste...)qui rend maximalela fontionde vraisemblane
θ → L(θ; x 1 , ..., x n )
Onnotera
t = h(x 1 , ..., x n ) = argmax θ ∈ Θ L(θ; x 1 , ..., x n )
.L'estimateur du maximum de vraisemblane(EMV)estalors l'estimateurT = h(X 1 , ..., X n )
.Remarque. Enpratique, ontravaillesouventavela fontionde log-vraisemblane qui estplus
simpleàmanipuler (lepassage aulog permet de transformer leproduiten somme).Dans lesas
simples,uneétude de fontion(aluldesdérivéspremières etéventuellement seonde, tableaude
variation,...) permetde trouverlemaximumde
l
.Lorsquee n'estpaspossible, une méthoded'optimisationnumérique estutilisée. AveR, onpeutparexemple utiliserla fontion tdistrdu
pakage MASS.
Exemple. Si
(X 1 , ..., X n )
est unéhantillond'une loi deBernoullide paramètreθ = π
,alors1 − π si x i = 0
P π (X i = x i ) =
π si x i = 1
Cei se rééritsous laforme
P π (X i = x i ) = π x i (1 − π) 1 − x i pour x i ∈ { 0, 1 }
Soit
(x 1 , ..., x n ) ∈ { 0, 1 } n
une réalisationde(X 1 , ..., X n )
.Lavraisemblaneest donnéeparL(π; x 1 , ..., x n ) =
n
Y
i=1
P π (X i = x i )
=
n
Y
i=1
π x i (1 − π) 1 − x i
= π P n i=1 x i (1 − π) n − P n i=1 x i
l(π; x 1 , ..., x n ) = ln(π)
n
X
i=1
x i + ln(1 − π)(n −
n
X
i=1
x i )
puisque
∂l(π; x 1 , ..., x n )
∂π
= P n
i=1 x i
π(1 − π) − n 1 − π
Don,enétudiant lesignede la dérivée, onen déduitquela fontionde vraisemblaneatteint
sonmaximumen
P n i=1 x i
n
.L'EMV estdonF = P n i=1 n X i
.Onretrouve l'estimateurusuel.Exemple. Ononsidèrelestempératuresjournalières (endegré Celsius)àBrest auoursde
l'été2008 donnéesdans letableaui-dessous :
16.4;14.25;14.5;11.8;13.65;12.2;11.6;13.2;16.9;17.1;16.75;15.2;12.5;12.45;13.65;
12.15;13.45;15.1;16.4;16.5;18.25;17.2;12.95;15.25;16.8;14.35;16.9;18.3;17.75;
15.85;16.1;16;14.4;14.35;16;14.65;14.2;15.05;15.75;16.7;16.05;14.9;15.9;14.5;
18.9;16.8;15.2;15.55;16.95;15.6;15.05;15.5;19.1;20.8;18.15;17.4;18.45;17.45;17.6;
19.25;17.95;17.4;17.95;17.1;16.4;17.95;19.4;17.05;17.35;15.4;17.15;15.8;15.6;
15.9;15.5;13.25;15.6;15.2;16.95;16.25;15.35;16.9;16.05;14.55;16.9;16.35;16.95;
16.3;16.05;16.35;17.85;16.65
1. Réaliser unhistogramme dees observations(on utiliseradeslasses de largeur1degréet
lelogiiel R).
2. Onsupposedansla suitede l'exeriequeesobservations sontune réalisation de n
variables aléatoires
(X 1 , ..., X n )
i.i.d. deloiN (µ, σ 2 )
.Cette hypothèse voussemble-t-elle réaliste?3. Quel estl'estimateurdumaximumde vraisemblanede
θ = (µ, σ)
?4. Appliation numérique.Calulerlesestimations orrespondantessurlesdonnéesde
températurejournalièreàBrest,puis représenter surla gurede laquestion 1. la densité
orrespondante (attentionàl'éhelle!). Commentez.
Solution partielle : 3.Calulde la fontionde vraisemblane. Soit
(X 1 , ..., X n )
unn-éhantillond'une loi normalede moyenne
µ
etéart-typeσ
,alors la densitéde la v.a.X i
estdonnée, pour
x i ∈ R
,par:f θ (x i ) = 1
√ 2πσ exp
− (x i − µ) 2 2σ 2
ave
θ = (µ, σ)
.Don,la fontionde vraisemblaneestdonnée,pour(x 1 , ..., x n ) ∈ R n
uneréalisation de
(X 1 , ..., X n )
,par:L(θ; x 1 , ..., x n ) =
n
Y
i=1
f θ (x i )
=
n
Y
i=1
√ 1
2πσ exp
− (x i − µ) 2 2σ 2
= 1
(2π) n/2 σ n exp
− P n
i=1 (x i − µ) 2 2σ 2
L'étudedespointsritiques montrequeettefontionatteint son maximumpour
µ = ¯ x
etσ = s
.Pourla loinormale, lesestimateursdumaximumde vraisemblanede
µ
etσ 2
oïnidentave lesestimateursusuelsde l'espérane etde la variane.
4.Appliation numérique:
x ¯ = 15.9679 o
ets = 1.7846 o
.Graphique:f Figure1
10 12 14 16 18 20 22 0
0.05 0.1 0.15 0.2 0.25 0.3 0.35
Figure1Histogrammedestempératureset densitédelaloinormaleajustée
2.3 Propriétés des estimateurs
Onpeuttoujoursdéniruneinnitéd'estimateurspourunparamètreinonnudonné,eten
pratiqueonherheraàutiliserle"meilleur" deesestimateurs.Ceinéessitededénire
qu'estunbonestimateur.
2.3.1 Biais d'un estimateur
Dénition. On appelle biaisde l'estimateurTla quantité
biais(T ) = E(T ) − θ
Onditquel'estimateur
T
estsans biais lorsquebiais(T ) = 0
,'est àdirelorsqueE[T ] = θ
.Lebiaisreprésente "l'erreur moyenne" quiest faite lorsqu'on utilise
T
pourestimerθ
.Proposition. Si
(X 1 , ..., X n )
estunn-éhantillond'une loi de moyenneE[X i ] = µ
,alorsX ¯
estunestimateursans biaisde
µ
.Enpartiulier, si
(X 1 , ..., X n )
estunn-éhantillonde Bernoulli de paramètreπ
alorsF
estunestimateursansbiaisde
π
.Sionsupposeen outreque
σ 2 < ∞
alorsE[S 2 ] = n − n 1 σ 2
.S 2
estdon unestimateurbiaisé deσ 2
,eton préfèreparfoisutilisél'estimateur orrigéS corr 2 = n
n − 1 S 2 = 1 n − 1
n
X
i=1
(X i − X ¯ ) 2
qui estunestimateursans biaisde
σ 2
.Remarque. Denombreuxlogiiels statistiques(Exel, R, ...)alulent pardéfautl'estimateur
sansbiaisde la variane
S corr 2
dénii-dessus.Démonstration. Si
(X 1 , ..., X n )
est unn-éhantillond'uneloid'espéraneµ
alorsE[ ¯ X] = E[ X 1 + ... + X n
n ]
= E[X 1 ] + ... + E[X n ]
= µ n
Onsupposeque
σ 2 < ∞
.Pardénition,S 2 = 1
n
n
X
i=1
(X i − X) ¯ 2
etdeladéomposition
(X i − X) = (X ¯ i − µ) − ( ¯ X − µ)
,ondéduitque:S 2 = 1
n
n
X
i=1
(X i − µ) 2 − 2( ¯ X − µ)(X i − µ) + ( ¯ X − µ) 2
= 1
n
n
X
i=1
(X i − µ) 2 − 2( ¯ X − µ) 1 n
n
X
i=1
(X i − µ) + ( ¯ X − µ) 2
= 1
n
n
X
i=1
(X i − µ) 2 − ( ¯ X − µ) 2
Don
E[S 2 ] = E[ 1 n
n
X
i=1
(X i − µ) 2 − ( ¯ X − µ) 2 ]
= 1
n
n
X
i=1
E[(X i − µ) 2 ] − E[( ¯ X − µ) 2 ]
= σ 2 − E[( ¯ X − µ) 2 ]
Ilresteàaluler
E[( ¯ X − µ) 2 ] = var( ¯ X)
= var( 1 n
n
X
i=1
X i )
= 1
n 2 var(
n
X
i=1
X i )
= 1
n 2
n
X
i=1
var(X i )
= σ 2 n
Finalement,
E[S 2 ] = n − 1 n σ 2
2.3.2 Erreur quadratiquemoyenned'un estimateur
Onmesuregénéralementlapréisiond'unestimateurparsonerreurquadratiquemoyenne.
Dénition. L'erreur quadratique moyenne(EQM) de l'estimateur
T
dénieparEQM (T ) = E[(T − θ) 2 ]
L'EQMreprésente l'espérane duarréde l'éart entrel'estimateuretleparamètreinonnu:plus
l'EQMest faible,plusl'estimateurestpréis.
0 1 2 0
0.5 1 1.5 2
β 0
β 1
0 1 2
0 0.5 1 1.5 2
β 0
β 1
0 1 2
0 0.5 1 1.5 2
β 0
β 1
Figure 2 Plusieurs réalisations de trois estimateurs diérents. La vraie valeur du paramètre
est le entre de laible (point de oordonnés
(1, 1)
). Lepremier estimateur (gure de gauhe)est biaisé (on vise systématiquement tropen bas et à gauhe), alors que les deuxième (gure
dumilieu) et troisième estimateurs (gure de droite) sont non-biaisés. Lavariane dudeuxième
estimateurestplusfortequeelledutroisième estimateur.
Remarque. Onmontrefailementque
E[(T − θ) 2 ] = var(T ) + E[(T − θ)] 2
'estàdirequel'erreur quadratiquemoyenneestégaleàla variane del'estimateur pluslebiais
del'estimateur auarré. Lorsquel'estimateurest non-biaisé,l'EQMoïnide avela variane:
parmideuxestimateurssans biais, lepluspréis estdon elui de varianeminimale (f Figure
2.3.2:lemeilleur estimateuresteluide droite).Cetteformule estégalementutileen pratique
pouraluler l'EQMdesestimateursusuels.
Proposition. Si
(X 1 , ..., X n )
estunn-éhantillond'une loi de moyenneµ
etde varianeσ 2 < ∞
,alorsEQM ( ¯ X ) = var( ¯ X ) = σ 2 n
Enpartiulier, si
(X 1 , ..., X n )
estunéhantillon de Bernoulli deparamètreπ
alorsEQM (F ) = var(F ) = π(1 − π)
n
Side plus
µ 4 = E[(X i − µ) 4 ] < ∞
,alorsEQM (S corr 2 ) = var(S 2 corr ) = µ 4
n − n − 3 n(n − 1) σ 4
Démonstration. (partielle)
Soit
(X 1 , ..., X n )
est unéhantillond'uneloidemoyenneµ
etdevarianeσ < ∞
.OnavuqueX ¯
estunestimateursansbiaisde
µ
etdonEQM ( ¯ X ) = var( ¯ X)
= var( X 1 + ... + X n
n )
= var(X 1 ) + ... + var(X n ) n 2
= σ 2 n
Lealulde
var(S corr 2 )
estplusdéliat...2.3.3 L'informationde Fisher
Dénition. On appellequantité d'information de Fisherapportée par unn-éhantillonsur
leparamètre
θ
la quantitésuivante (sielleexiste)I n (θ) = E[
∂l(θ; X 1 , ..., X n )
∂θ
2
]
Enpratique,ilestsouventplusfailed'utiliserl'une desdeuxformulesdonnéesdansla
propositionsuivantepouralulerl'information deFisher.
Proposition. Sous desonditionsgénérales (f remarquei-dessous),on a:
I n (θ) = var(
∂l(θ; X 1 , ..., X n )
∂θ
)
I n (θ) = − E[
∂ 2 l(θ; X 1 , ..., X n )
∂θ 2
]
Démonstration. Onseplae dansleasdesvariablesontinues.Lapreuvedansleasdisret est
similaireenremplaçantlessignes
R
pardessignes
P
.Onpartdelarelation:
Z
R n
L(θ; x 1 , ..., x n )dx 1 ...dx n = 1
(2.1)quivientdufaitque
L(θ; x 1 , ..., x n )
est laloideprobabilitéd'unn-éhantillon(X 1 , ..., X n )
delaloi
P θ
.Notonsque,plusgénéralement,sig : R n → R
,onaE[g(X 1 , ..., X n )] =
Z
R n
g(x 1 , ..., x n )L(θ; x 1 , ..., x n )dx 1 ...dx n
Ensuite,pardénitionde
l
,ona∂L(θ; X 1 , ..., X n )
∂θ = L(θ; X 1 , ..., X n ) ∂l(θ; X 1 , ..., X n )
∂θ
(2.2)Endérivant(2.1)parrapportà
θ
,et ensupposantqu'onpuisseintervertirlessignesR
et
∂
,onobtient
0 = ∂
∂θ Z
R n
L(θ; x 1 , ..., x n )dx 1 ...dx n
= Z
R n
∂
∂θ L(θ; x 1 , ..., x n )dx 1 ...dx n
Z
R n
L(θ; X 1 , ..., X n ) ∂l(θ; X 1 , ..., X n )
∂θ dx 1 ...dx n = 0
(2.3)Parailleurs,d'aprèslaremarquepréédente,ona
Z
R n
L(θ; X 1 , ..., X n ) ∂l(θ; X 1 , ..., X n )
∂θ dx 1 ...dx n = E[ ∂l(θ; X 1 , ..., X n )
∂θ ]
Onadon
E[ ∂l(θ;X ∂θ 1 ,...,X n ) ] = 0
puisI n (θ) = E[
∂l(θ; X 1 , ..., X n )
∂θ
2
]
puisquelav.a.
∂l(θ;X 1 ,...,X n )
∂θ
estentrée.Endérivant(2.3)parrapportà
θ
,onobtientZ
R n
L(θ; X 1 , ..., X n ) ∂ 2 l(θ; X 1 , ..., X n )
∂θ 2 +
Z
R n
∂
∂θ L(θ; X 1 , ..., X n ) ∂
∂θ l(θ; X 1 , ..., X n ) = 0
Puis,enutilisantànouveaul'égalité
∂L(θ;X 1 ,...,X n )
∂θ = L(θ; X 1 , ..., X n ) ∂l(θ;X ∂θ 1 ,...,X n )
,onobtientladeuxièmeégalitédelaproposition.
Remarque. 1. Pour quela propositionpréédentes'applique, il fautdon pouvoirdériver la
vraisemblane deuxfoisparrapportà
θ
(pourtoutx)et intervertirlessignes∂
etR
.Ces
hypothèsessont vériéesparleslois usuellesdèsquelesupportde laloi, 'est àdire
l'ensemble
A θ = { x | f (x; θ) ≥ 0 }
,ne dépendpasdeθ
.Unexemple lassiquepourlequellesupportde la loidépend de
θ
est laasoù lesX i
suiventune loiuniformesur[0, θ]
.Onvériealors quelesformules de la proposition préédentene sont pasvériées.
2. Enutilisantla dénition de la log-vraisemblanedansleasdeséhantillons i.i.d.,il est
faile de vérierque
l(θ; x 1 , ..., x n ) = P n
i=1 l(θ; x i )
. Onendéduit aisémentque,silaproposition préédentes'applique, alors
I n (θ) = nI 1 (θ)
Exemple. Si
(X 1 , ..., X n )
est unéhantillond'une loi deBernoullide paramètreθ = π
,alorsl(π; x 1 , ..., x n ) =
n
X
i=1
x i ln(π) + (n −
n
X
i=1
x i )ln(1 − π)
Don
∂l(π; x 1 , ..., x n )
∂π
= P n
i=1 x i
v +
P n
i=1 x i − n 1 − π
= P n
i=1 x i
π(1 − π) − n 1 − π
Onendéduit que
E[ ∂l(π;x
1 ,...,x n )
∂π
] = 0
etdon queE[ ∂l(π;x
1 ,...,x n )
∂π
] = var( ∂l(π;x
1 ,...,x n )
∂π
)
,puisquel'information de Fisher estdonnéepar
I n (π) = var(
P n i=1 X i
π(1 − π) − n π )
= n
π(1 − π)
∂ 2
∂p 2 l(π; x 1 , ..., x n ) =
n
X
i=1
x i
1 − 2p
π 2 (1 − π) 2 + n (1 − π) 2
puis
E[ ∂ 2
∂π 2 l(π; x 1 , ..., x n )] = − n π(1 − π)
Onretrouvebien lemêmerésultat.
Lethéorèmesuivantestfondamental enstatistiqueinférentielle.
Théorème. (Borne de Fréhet-Darmois-Cramer-Rao (FDCR))
Sousdesonditions générales (f remarquei-dessous),si
T
estune estimateursans biaisdeθ
alors:
var(T ) ≥ 1 I n (θ)
Plusgénéralement,si
T
est unestimateursans biaisdeg(θ)
,alors :var(T ) ≥ (h ′ (θ)) 2
I n (θ)
Démonstration. Onseplae toujoursdansleasdesvariablesontinues.
Onutilisel'inégalitédeCauhy-Shwartz:
cov(T, ∂
∂θ l(θ)) 2 ≤ var(T )var( ∂
∂θ l(θ))
Ensuite,
cov(T, ∂θ ∂ l(θ)) = E[T ∂θ ∂ l(θ)]
ar∂θ ∂ l(θ)
estentrée.Doncov(T, ∂
∂θ l(θ)) = Z
R n
T (x 1 , ..., x n ) ∂
∂θ l(θ; x 1 , ..., x n )L(θ; x 1 , ..., x n )dx 1 ...dx n
= Z
R n
T (x 1 , ..., x n ) ∂
∂θ L(θ; x 1 , ..., x n )dx 1 ...dx n
= ∂
∂θ Z
R n
T (x 1 , ..., x n )L(θ; x 1 , ..., x n )dx 1 ...dx n
= ∂
∂θ E[T ]
= g ′ (θ)
Remarque. Anouveau, pourquelethéorèmepréédents'applique, il fautpouvoirdériver la
vraisemblane deuxfois par rapport à
θ
(pour toutx)etintervertir lessignes∂
etR
.Ces
onditionssont généralementvériées lorsquelesupport dela loi nedépend pasde
θ
.LethéorèmedeFDCRdonneuneborneinférieurepourlavarianed'unestimateursansbiais.
Ondiraqu'unestimateursans biais esteaelorsquesavarianeestégaleàla borne de
FDCR.Plus laquantitéd'informationapportéeparl'éhantillonestgrande,plusborne deFDCR
estpetite.
Parailleurs,si ilexisteunestimateureae,alorsilestuniquep.s.En eet,soit
T 1
etT 2
deuxestimateurseaesde
θ
.T 1
etT 2
sontdonsansbiaisetleursvarianessontégalesàlabornedeFDCR
V
.Considéronsl'estimateurT 3 = T 1 +T 2 2
.T 3
est unestimateursansbiaisdeθ
devariane
var(T 3 ) = V 2 (1 + cor(T 1 , T 2 ))
. Commevar(T 3 ) ≥ V
,onendéduit quecor(T 1 , T 2 ) = 1
puisque
T 1 = T 2 p.s.
Exemple. Si
(X 1 , ..., X n )
est unéhantillond'une loi deBernoullide paramètreθ = π
,alorsl'informationde Fisher estdonnéepar
I n (π) = n π(1 − π)
Lethéorème de FDCRnous dit toutestimateursans biaisauraune varianesupérieureà
π(1 − π)
n
.Or,nous avonsvuque
F = 1 n (X 1 + ... + X n )
estunestimateursansbiaisdeπ
etquesavarianeestégale
I n (π) − 1
.Onen déduit qu'ils'agitde l'unique estimateureae deπ
,et don lemeilleur(en unertainsens...)
2.3.4 Propriétés asymptotiques
Onnoteradanseparagraphe
T n
unestimateurdeθ
basésurunéhantillondetaillen
(X 1 , ..., X n )
.Unbonestimateurdoitavoirdebonnes"propriétésasymptotiques",'estàdiredes propriétésdeonvergenelorsquen → ∞
. Enpartiulier,onpréféreradesestimateursquisont onvergents(ouonsistants).Dénition.
T n
estunestimateuronvergentdeθ
lorsqueT n
onvergep.s.versθ
lorsquen → ∞
.Proposition. Si
(X 1 , ..., X n )
estunn-éhantillond'une loi d'espéraneµ
etde varianeσ 2 < ∞
alors
X ¯ n = X 1 + ... + X n
n
estunestimateuronvergentde
µ
.Enpartiulier, si(X 1 , ..., X n )
estunéhantillonde Bernoullideparamètre
π
alorsF n = X 1 + ... + X n
n
estunestimateuronvergentde
π
.Side plus
µ 4 = E[(X i − µ) 4 ] < ∞
alorsS n 2 = X 1 2 + ... + X n 2 n − X ¯ 2
et
S n,corr 2 = n
n − 1 S 2 = 1 n − 1
n
X
i=1
(X i − X) ¯ 2
sontdesestimateursonvergentsde
σ 2
.Démonstration. Appliationsdiretesdelaloidesgrandsnombres(LGN).
DenombreuxestimateursvérientunTCL,'estàdiresonttelsque
√ n(T n − θ) → N L (0, σ 2 (θ))
lorsque
n → ∞
.Cetypedeomportementasymptotiqueestourammentutilisépouronstruire desintervallesdeonaneouréaliserdestests(fparagraphessuivants)et estdonpartiulièrementsouhaitable.Onparlerade"normalitéasymptotique".
Proposition. Soit
(X 1 , ..., X n )
estunéhantillond'une loide moyenneµ
etdevarianeσ 2 < ∞
alors
√ n( ¯ X n − µ) → N L (0, σ 2 )
lorsque
n → ∞
.Enpartiulier, si(X 1 , ..., X n )
estunéhantillon de Bernoulli deparamètreπ
etF n = X 1 +...+X n n
,alors√ n(F n − π) → N L (0, π(1 − π))
lorsque
n → ∞
.Lapropositionsuivanteétablitquesousdesonditionsgénérales,l'EMV adebonnespropriétés
asymptotiques.
Proposition. Sous deshypothèses générales (f rqi-dessous),l'EMV estonvergent et
asymptotiquementgaussienet
√ n(T n − θ) → N L (0, 1 I 1 (θ) )
Remarque. 1. Onpeutdon en déduire, sous ertainesréserves, quepour
n
grandE[T n ] ≈ θ
et
var(T n ) ≈ I n 1 (θ)
.Untelestimateurestdit "asymptotiquementeae". Touteses bonnes propriétés(onvergene, normalité asympotitqueave varianeasymptotiqueonnue,eaitéasymptotique) justientl'utilisation de la méthode dumaximumde vraisemblane
ommeméthode d'estimationpardéfaut enstatistique.
2. Pourque lethéorème préédent s'applique,il fautpouvoir dériver lavraisemblanetroisfois
parrapportà
θ
(pourtoutx),pouvoirintervertir lessignes∂
etR
etque
Θ
soit unensembleouvert. Cesonditionssont généralementvériéeslorsquelesupportde laloi ne
dépend pas de
θ
.2.4 Estimation par intervalle de onane
Danslesparagraphespréédents,desméthodespermettantd'estimerlavaleurd'unparamètre
inonnu
θ
àpartird'observationsontétéproposées.Cesméthodesfournissentseulementune valeur("estimation pontuelle"),maisnepermettentpasdequantierlapréisiondeetteestimation.Pourela,onutilisegénéralementdesintervallesdeonanequipeuvent
s'interpréterommedesmargesd'erreur.
2.4.1 Constrution d'intervallesde onanepourla moyenned'un éhantillon
Gaussien lorsquela variane est onnue
Onsupposedanseparagrapheque
X 1 , ..., X n
estunn-éhantillond'uneloiN (µ, σ 2 )
.Onherheàestimer
µ
,supposéinonnu,maisonsupposequel'éart-typeσ
est onnu.Cei estrarementleasenpratique,et easpartiulieradonprinipalementunobjetifpédagogique.
Nousreviendronssurlaonstrutiond'intervallesdeonanelamoyenned'unéhantillonsous
deshypothèsesplusréalistesdanslasuitedeeours.
Aveleshypothèsesi-dessus,onpeutmontrerque
X ¯ ∼ N (µ, σ n 2 )
puisque√ n X ¯ σ − µ ∼ N (0, 1)
etdon
P [u α/2 ≤ √
n X ¯ − µ
σ ≤ u 1 − α/2 ] = 1 − α
ave
u α
lequantiled'ordreα
delaloiN (0, 1)
,equiseréritP [ ¯ X + u α/2
√ σ n ≤ µ ≤ X ¯ + u 1 − α/2
√ σ n ] = 1 − α
L'intervalle
[ ¯ X + u α/2 √ σ n ; ¯ X + u 1 − α/2 √ σ n ]
estunintervallealéatoire(puisquelesbornesdépendentdesvariablesaléatoires
X 1 , ..., X n
)qui ontientlavraie valeurduparamètreµ
aveuneprobabilité
1 − α
.Untelintervalleestappeléintervalledeonaneauniveaudeonane1 − α
pourµ
.Enpratiquelesquantilesdelaloi
N (0, 1)
peuventêtreobtenusenutilisantdestablesstatistiques oudeslogiielsadaptés(R,Matlab,SAS,Exel...)Dénition: l'intervallealéatoire
[a(X 1 , ..., X n ); b(X 1 , ..., X n )]
est appelé intervalle deonaneauniveaudeonane
1 − α
pourθ
siP [a(X 1 , ..., X n ) ≤ θ ≤ b(X 1 , ..., X n )]] = 1 − α
.Lorsquelatailledel'éhantillon
n
estsusammentgrande,onpeutonstruiredesintervallesde onanepourlamoyenneµ
enutilisantlespropriétésasymptotiquesdeX ¯
etS 2
donnéesi-dessus.
Pluspréisément,soit
(X 1 , ..., X n )
unn-éhantillond'uneloivériantvar(X i ) = σ 2 < + ∞
.Pour"ngrand",d'aprèsleTCL,ona:
√ n X ¯ − µ
σ ≈ N (0, 1)
Cetteapproximationestvalable mêmesil'éhantillonn'estpasgaussienet permet defairedes
intervallesdeonanelorsque
σ
estonnu.Lorsqueσ
estinonnu,onpeututiliserlefaitqueS 2
estunestimateuronvergentde
σ 2
,etdonpour"ngrand",onaS ≈ σ
Finalement,onendéduitquepour"ngrand":
√ n X ¯ − µ
S ≈ N (0, 1)
UnedémonstrationrigoureusedeerésultatpeutêtreobtenueenutilisantlelemnedeSlutsky:
onpeutmontrerque,souslesonditionsd'appliationduTCL,
√ n X ¯ S − µ
onvergeenloiversuneloi
N (0, 1)
.Enpratique,onsuppose généralementqueette approximationestvalidedèsque
n ≥ 30
(!).Onaalors:
P [u α/2 ≤ √
n X ¯ − µ
S ≤ u 1 − α/2 ] ≈ 1 − α
puis
P [ ¯ X + u α/2
√ S n ≤ µ ≤ X ¯ + u 1 − α/2
√ S n ] ≈ 1 − α
L'intervalle
[ ¯ X + u α/2 √ S
n ; ¯ X + u 1 − α/2 √ S
n ]
estappelé "intervallede onaneasymptotique"auniveaudeonane
1 − α
pourµ
.Exemple. Onreprend lesdonnéesde températureàBrest(f paragraphe2.2).
1. Donnerunintervallede onaneà95% pourla température moyenne,disuter la validité
deshypothèsessurlesquellesreposelaonstrution de etintervalle.
2. Une agene devoyage prétendquela températuremoyenneàBresten étéest de
19 o
.Qu'enpensez-vous?
2.4.3 Constrution d'intervallesde onanepourune proportion
Ilest égalementpossibledeonstruiredesintervallesdeonanepouruneproportionlorsquen
estgrand.Soit
X 1 , ..., X n
unn-éhantillond'uneloideBernoullideparamètreπ
.D'aprèsleTCL,onsaitquepourngrand :
√ n F − π
p π(1 − π) ≈ N (0, 1)
Comme
F
estunestimateuronsistentdeπ
, pourngrand,onpeutremplaerledénominateur parF (1 − F)
(demanièreplusformelle,onpeututiliserlelemmedeStudsky),et onaalors:√ n F − π
p F (1 − F ) ≈ N (0, 1)
P [u α/2 ≤ √
n F − π
p F (1 − F ) ≤ u 1 − α/2 ] ≈ 1 − α
etenn
P [F + u α/2
p F (1 − F )
√ n ≤ π ≤ F + u 1 − α/2
p F(1 − F )
√ n ] ≈ 1 − α
Don
[F + u α/2
√ F(1 − F)
√ n ; F + u 1 − α/2
√ F(1 − F)
√ n ]
estunintervalle deonaneasymptotiqueau niveaudeonane1 − α
pourπ
.En pratique,onsupposegénéralementqueette approximation estvalabledèsquenπ ≥ 5
etn(1 − π) ≥ 5
. Commeπ
est inonnuenpratique,onvérieaposteriorisilesonditionssontvériéespourlesbornesdel'intervalledeonane,'estàdire
n(F − u α/2
√ F(1 − F)
√ n ) ≥ 5
etn(1 − F − u 1 − α/2
√ F (1 − F)
√ n ) ≥ 5
Exemple. Onreprend l'exemple dusondage.
1. Donnerunintervallede onaneà
95%
pourlesintentionsde vote.2. Combien depersonnefaudrait-ilsonderpour êtreertaind'obtenirunintervallede
onaneà
95%
dontlalargeur estinférieur à0.1%
?2.5 Tests statistiques
2.5.1 Généralité sur lestests
Unteststatistiquepermetdevériersiertaineshypothèsesfaitessurlavaleurdesparamètres
sontréalistesounon.Pluspréisément,dansleadredeeours,nousnousintéresseronsàtester
deshypothèsesdelaforme
H 0 : θ ∈ Θ 0
ontrel'hypothèsealternativeH 1 : θ / ∈ Θ 0
ave
Θ 0 ⊂ Θ
.Ondistingueusuellementdeux typesd'erreurs:
L'erreurde premièreespèe quionsisteàrejeter
H 0
alorsqueH 0
estvraie.Onappellerisquede premièreespèe
α
laprobabilitédehoisirH 1
alorsqueH 0
est vraie.L'erreurde deuxième espèequi onsisteàaepter
H 0
alorsqueH 0
estfausse.Onappellerisquede deuxièmeespèe
β
laprobabilitédehoisirH 0
alorsqueH 0
est fausse.Enpratique,onxegénéralement
α
(valeursourantes:5%ou1%)etH 0
jouedonunrleplusimportantque
H 1
.1 − β
est appelélapuissane dutest: pourunrisquedepremièreespèeα
xé,onherheàonstruireletestdontlapuissaneest laplusgrande!
2.5.2 Tests pourune moyenne
Ondisposed'unn-éhantillon
(X 1 , ..., X n )
d'uneloid'espéraneinonnueµ = E[X i ]
et onveuttesterl'hypothèsesimple:
H 0 : µ = µ 0
ontrel'hypothèsealternativeH 1 : µ 6 = µ 0
ave
µ 0
unevaleurxée.Premieras :supposons que
(X 1 , ..., X n ) ∼ iid N (µ, σ 2 )
aveσ
onnue(fparagraphesurlesintervallesdeonane).Onaalors:
√ n X ¯ − µ
σ ∼ N (0, 1)
Don,si
H 0
estvraie,onaµ = µ 0
etP H 0 [u α/2 ≤ √
n X ¯ − µ 0
σ ≤ u 1 − α /2] = 1 − α
Onadoptealorslarègle de déisionsuivante :
Onaepte
H 0
si√
n X ¯ − σ µ 0 ∈ [u α/2 , u 1 − α/2 ]
.Onrefuse
H 0
sinon.Remarque. 1. Onaepte don
H 0
lorsque,X ¯ ∈ [µ 0 + u α/2
√ σ n , µ 0 + u 1 − α/2
√ σ n ]
'est àdirelorsque
X ¯
estsusamment prohe deµ 0
.Larègle de déision estonstruitepour quelerisquede premièreespèe soitbienégal à
α
.2. Lorsqu'on faituntestaveunlogiiel de statistique(R,SAS,Exel,...), lerésultat est
donné sousla forme d'une "p-value"(ou"degré de signiation").Pourletest
préédent, ettep-valueest déniepar
p v = P[ | Z | > | √
n ¯ x − µ 0
σ | ]
ave
Z
une variable gaussienneentrée-réduiteetx ¯
la moyenneobservée surl'éhantillon.On vérieaisémentqu'on aepte
H 0
ave unrisquede premièreespèeα
sietseulementsi
p v > alpha
.Lap-value estsouventinterprétéeommeune"mesure" dela vraisemblane de l'hypothèseH 0
:une p-valuefaible indiqueque l'hypothèseH 0
estpeuvraisemblable.Deuxièmeas:onnesupposeplusquel'éhantillonest gaussienniquelavariane
σ 2
estonnue.Parontre,onsupposeque
n
estsusammentgrand(n ≥ 30
?)pourquel'approximation
√ n X ¯ − µ
S ≈ N (0, 1)
soitvalable.Alors,si
H 0
estvraie, onaµ = µ 0
etP H 0 [u α/2 ≤ √
n X ¯ − µ 0
S ≤ u 1 − α/2 ] = 1 − α
Onadoptealorslarèglededéisionsuivante:
Onaepte
H 0
si√ n X ¯ − S µ 0 ∈ [u α/2 , u 1 − α/2 ]
.Onrefuse
H 0
sinon.Remarque. Iila p-value dutestestdonnéepar
p v = P[ | Z | > | √
n x ¯ − µ 0
s | ]
ave
Z
une variable gaussienneentrée-réduiteetx ¯
(resp.s
) la moyenne(resp. l'éart-type) observée surl'éhantillonExemple. Uneagenede voyage prétendquela températuremoyenneàBresten étéestde
22 o
.Cettearmation est-elleen aordave lestempératures observéspendant l'été2008 (f hapitre
2.2)?Quelleestla p-value dutest?
2.5.3 Test pour uneproportion
Ondisposed'unn-éhantillon
(X 1 , ..., X n )
d'uneloideBernoullideparamètreπ
inonnu,etonveuttesterl'hypothèsesimple
H 0 : π = π 0
ontrel'hypothèsealternativeH 1 : π 6 = π 0
√ n F − π
p π(1 − π) ≈ N (0, 1)
Don,si
H 0
estvraie,onaπ = π 0
etP H 0 [u α/2 ≤ √
n F − π 0
p π 0 (1 − π 0 ) ≤ u 1 − α/2 ] ≈ 1 − α
Onsupposegénéralementqueetteapproximationestvalablelorsque
nπ ≥ 5
etn(1 − π) ≥ 5
.Onadoptealorslarèglededéisionsuivante:
Onaepte
H 0
si√ n √ F − π 0
π 0 (1 − π 0 ) ∈ [u α/2 , u 1 − α/2 ]
.Onrefuse
H 0
sinon.Exemple. And'estimerles intentionsde votelors dudeuxièmetourd'une életion
présidentielle, uninstitutréalise unsondage. Sur1000 personnesinterrogéesauhasard,520
pensentvoterpour leandidat Aet480 pour leandidat B.Etantdonnés lesrésultatsde e
sondage, peut-onen déduire quelandidatva gagner l'életion?
2.6 Exeries sur le hapitre 2
Exerie 2.1. Lors duontrled'unhaînede médiaments,on s'intéresseaunombre de
omprimés défetueuxdansunlot.Lestestseetuéssur20lotshoisis auhasardont donnéles
résultatssuivants:
1,0,0,3,2,0,5,2 ,0 ,0 ,1 ,2, 1, 3, 0, 1,0 ,0 ,2 ,7
Onsupposeraqueesobservationsproviennentd'unéhantillond'une loide probabilitéinonnue,
d'espérane mathématique
µ
etde varianeσ 2
.a.Ononsidère lesquatreestimateurssuivantspour
µ
:
T 1 = X 1
T 2 = X 1 +X 2 2
T 3 = X 1 +X 3 2
X ¯ = X 1 +X 2 +...+X n n
Quereprésentent
X i
etn
dansla dénition desestimateurs?Quelleshypothèses sont faitessurX 1 , X 2 , ..., X n
?Calulerlebiais, la varianeet l'erreurquadratiquemoyennede es4estimateurs. Quel estle
meilleurestimateur?Quelleest l'estimationorrespondante?
b.Proposer unestimateurde
σ 2
etalulerl'estimation orrespondante..Proposer unestimateurde la proportion delotsqui ontiennentaumoinsunomprimé
défetueuxetaluler l'estimation orrespondante.
Exerie 2.2. Existe-t-ilunestimateursans biaisduparamètre
θ = π 1
pourunéhantillondetaille1d'une loi de Bernoulli deparamètre
π
?Exerie 2.3. Soit
(X 1 , ..., X n )
n variables aléatoiresi.i.d. d'une loide moyenneµ
et devariane
σ 2
.a.Donnerune onditionnéessaireetsusante surlesonstantesréelles
a 1 , ..., a n
pourqueP n
i=1 a i X i
soitunestimateursans biaisdeµ
.b.Parmi touslesestimateursde
µ
de la formeP n
i=1 a i X i
,quelestelui de variane minimale?Quelestlebiais deetestimateur?
.Parmi touslesestimateursde
µ
de la formeP n
i=1 a i X i
,quelestelui dontl'erreurquadratique moyenneestminimale?
d.Parmiles estimateurssans biaisde
µ
de la formeP n
i=1 a i X i
,quelest elui devarianeminimale?
Exerie 2.4. Soit
(X 1 , ..., X n )
n variables aléatoiresi.i.d. qui suiventune loinormaled'espérane
0
etde varianeσ 2
.Ononsidèrel'estimateursuivantpourσ 2
:T = n 1 P n i=1 X i 2
a.Caluler lebiais,la variane etl'erreur quadratique moyennedeetestimateur.
b.Etudier lespropriétés asymptotiquesde l'estimateur(onvergene, normalitéasymptotique).
Exerie 2.5. Onaobservé lesdurées de vie(en heure)de 30 omposantséletroniques.Les
résultatssuivantsontétéobtenus :0.1;7.4;1.0;7.9;2.1;1.8;17.9;9.3;6.5;3.3;5.6;7.7;
0.1;24.3;8.1;10.0;11.9;1.6;2.7;0.5;5.8;42.5;5.1;2.0;0.2;15.0;3.5;6.4;0.6;3.3
Onadmettraque
P 30
i=1 x i = 223.5
etP 30
i=1 x 2 i = 3826.8
.Première partie.Onsupposedansettepremière partie quela durée de viedesomposants
életroniques suituneloi exponentiellede paramètreinonnu
θ > 0
.Onrappellequela densité deetteloiestdonnéepar:
f θ (x) = 1
θ exp( − x θ )
a.Construire unestimateurde
θ
en utilisantla méthode desmomentsetdonner l'estimation orrespondante.b.Caluler l'estimateurdumaximumde vraisemblane
T n
deθ
ainsiquel'estimation orrespondante..Caluler lebiaisetl'erreur quadratique moyennede
T n
.Cet estimateurest-ileae?d.Etudier lespropriétés asymptotiquesde
T n
(onvergene, normalitéasymptotique). Endéduire unintervallede onane asymptotiqueà95% pourθ
.e.Caluler lafontion de répartitionde la loiexponentielle, puis endéduireunestimateurde la
probabilitéquela durée devie d'unomposantsoit supérieureàune duréequelonque
t ≥ 0
.Endéduireune estimationde la probabilité quela duréede vie d'unomposantsoit supérieure à20h,
30het40het ompareres résultatsave lesfréquenes empiriquesalulées àpartirdesdonnées.
Quelestlemeilleur estimateur?
f.Traer surunmême graphique la densitéde la loiexponentielleajustéeetunhistogramme
dérivantla répartition desduréesde vie observées(on utiliseraundéoupage en lassesde
largeur3). Disuterla qualitéde l'ajustement.
Deuxième partie.Onsupposemaintenantquela duréede vie desomposantséletroniques suit
uneloi dontladensité de probabilité estdonnéepar :
f θ (x) = x
θ 2 exp( − x θ ) si x ≥ 0
0 sinon
(2.4)ave
θ > 0
unparamètreinonnu.a.Caluls préliminaires. Onpose,pour
n ≥ 0
,J n (θ) =
Z + ∞ 0
x n exp( − x θ )
1. Montrer,àl'aided'une intégrationparpartie, quepour
n ≥ 0 J n+1 (θ) = (n + 1)θJ n (θ)
.Endéduire que
J n (θ) = θ n+1 n!
2. Endéduire que
f θ
dénitbienune densité,puis quesiqueest unevariable aléatoiredontlaloiadmet la densité
f θ
alorsE[X ] = 2θ
etvar(X ) = 2θ 2
3. Construireunestimateurde
θ
enutilisant la méthode desmoments.b.Caluler l'estimateurdumaximumde vraisemblane
T n
deθ
,ainsi quel'estimation orrespondante..Caluler lebiaisetl'erreur quadratique moyennede
T n
.Cet estimateurest-ileae?d.Etudierlespropriétésasymptotiquesde
T n
.Endéduireunintervallede onaneasymptotique à95%pourθ
.mortels(horssuiide)surespassages entre1985 et1997.Lesnombresobservés sont les
suivants:
1985 :3
1988 :2
1991,1993,1995,1 997 :1
Onsupposeque lenombre d'aidents
X
auours d'uneannéesuitune loide poisson deparamètre
θ > 0
inonnu. Onaalors,pourk ≥ 0
,P[X = k; θ] = θ k exp( − θ) k!
Onadmettraque
E[X] = θ
etvar(X ) = θ
.a.Caluler l'estimateurdumaximumde vraisemblane de
θ
,puis uneestimationdeθ
baséesurlesobservations.
b.Calulerlebiaisetl'erreurquadratiquemoyennedel'estimateurde laquestion a.,puisétudier
sespropriétés asymptotiques.Cetestimateurest-ileae?
.Donnerunintervallede onaneasymptotiqueà95% pour
θ
.Exerie 2.7. Soit
(X 1 , ..., X n )
unn-éhantillond'une variable aléatoirenormale de moyenneµ
etd'éart type
σ
.Onrappellequela densité deX i
est donnéeparf θ (x) = 1 σ √
2π exp( − (x − µ) 2 2σ 2 )
ave
θ = (µ, σ)
.Première partie.Onsupposedansettepartie que
σ
estonnuetµ
inonnu.a.Caluler l'estimateurdumaximumde vraisemblane de
µ
ainsi quelaquantité d'information de Fisherapportée par l'éhantillon sureparamètre. Comment varieettequantité aveσ
?Commenter.
b.L'estimateur de la questionpréédenteest-ileae?
Deuxième partie.Onsupposedansettepartieque
µ
estonnuetσ
inonnu.a.Caluler l'estimateurdumaximumde vraisemblane de
σ
ainsi quelaquantité d'information de Fisherapportée par l'éhantillon sureparamètre.b.L'estimateur de la questionpréédenteest-ileae?
Troisième partie.Onsupposedorénavantque
µ
etσ
sont inonnus. Calulerl'estimateurdu maximumde vraisemblaneorrespondant.Exerie 2.8. Soit
(X 1 , ..., X n )
desvariables aléatoiresindépendantesetidentiquement distribuéesde loiuniformesurl'intervalle[0, θ]
.Ladensité deX i
estalors donnéeparf (x; θ) = 1
θ si x ∈ [0, θ]
0 sinon
a.Vérier que
f (.; θ)
estbienune densité etmontrerque l'espéraneet lavarianede etteloisontdonnées par
E[X] = θ/2
etvar(X) = θ 2 /12
.b.Donnerunestimateur
T n
deθ
parla méthode desmoments.1. Calulerlebiaiset la varianede etestimateur.
2. Etudier lespropriétés asymptotiquesde
θ
(onvergene, normalité asymptotique).3. Endéduire unintervalle de onaneasymptotique à95%pour
θ
..Montrer que
M n = max(X 1 , ..., X n )
est l'estimateurdumaximumde vraisemblane deθ
.1. Montrerque