• Aucun résultat trouvé

y 1 x 1,1 x 1,2

N/A
N/A
Protected

Academic year: 2022

Partager "y 1 x 1,1 x 1,2"

Copied!
62
0
0

Texte intégral

(1)

P. Ailliot

30novembre 2011

1 Introdution aux méthodes de régression

L'objetifgénéraldelarégressionest d'expliquerunevariable

Y

,diteréponse,variableexogène

ouvariable àexpliquer,enfontionde

p

variables

x 1 , ..., x p

,ditesvariablesexpliativesou endogènes.Ondisposed'observationsdeesvariablessur

n

individus,'estàdired'untableaude

donnéesdelaforme:

y 1 x 1,1 x 1,2

...

x 1,p

y 2 x 2,1 x 2,2

...

x 2,p

.

.

. .

.

. .

.

. .

.

. .

.

.

y n x n,1 x n,2

...

x n,p

Table1Lignes:individus,Colonnes:variables

Lapremièreolonneest lavariableàprédireàpartirdesvariablesexpliativesdonnéesdansles

p

dernièresolonnes.

Lesméthodesderégressionsonttrès ourammentutiliséesenassuraneetennane.Deux

exemplesserontpluspréisémentétudiésdansleadredeeours:

Assuranedommage:lesmodèlesderégressionsontourammentutiliséspourprévoirla

primepured'unassuréenfontiondesonprol. Onherheparexempleàprédirelenombre

etlesmontantsdessinistresd'unassuréauours d'uneannée enfontiondesonsexe,sonâge,

sonmétier(CSP),larégionoùilvit,etand'adapter aumieux latariationauprolde

l'assuré...

Tables de mortalité :lestablesdemortalitésdériventladémographied'unepopulation

donnée,typiquementlenombre

N x,t

desurvivantsquiontl'âge

x

l'année

t

.Lesmodèlesde

régressionsontourammentutiliséspourprévoirl'évolutionfuturedelapopulationetréaliser

destables demortalitéprospetives.Cestables prospetivessontutiliséespourdebombreux

alulsatuarielsenassuranevie.

Cesdiérentesvariablespeuventêtresoit

quantitatives à valeurs ontinues(ex:age,température,montant...)

quantitatives à valeurs disrètes,parexempleàvaleursbinaires(ex:présene/absene

d'unemaladie)ouentières(ex:nombredesinistres)

qualitatives (ex:CSP,région,sexe).

Lanature desvariablesonditionnefortementlaméthodederégressionutilisée:

danslehapitre4,touteslesvariablessontsupposéesêtrequantitativesontinueset on

introduiralarégression linéairemultiplequiest unegénéralisationdelarégression

linéairesimpleétudiée enL3

(2)

maisonautoriseraertainesvariablesexpliativesàêtrequalitativesouquantitativesdisrètes

etonintroduiral'analyse de lavarianeet l'analyse de la ovariane

Leshapitres2et3sontdesrappelsdesoursdeL3etsontdespré-requisdeeours.Le

hapitre2rappelleertainesnotionsessentiellesduours destatistique:estimation, intervallede

onane,test statistique,méthodedumaximumdevraisemblane,...Lehapitre3rappelle

ertainespropriétésdesveteursgaussiensetdesprojetionsorthogonales.Cesontlesprinipaux

outilsmathématiques utilisésdanslesdémonstrationsdeshapitres4et5.

2 Introdution à la statistique inférentielle

Pourplusdedétails,onpourraonsulter lesouvragessuivants:

HussonF.etPagèsJ.(2005),Statistiquesgénéralespour utilisateurs.2- Exeries etorrigés,

PressesUniversitairesdeRennes.

Knight,K.(1999),Mathematial Statistis,Chapman andHall.

PagèsJ.(2005),Statistiques générales pourutilisateurs. 1- Méthodologie, PressesUniversitaires

deRennes.

Saporta,G.(2006),Probabilités,analysesdesdonnéesetstatistiques,EditionsTehnip,2eédition.

2.1 Introdution

Lesexemplesi-dessousservirontàillustrerehapitre:

Exemple1: ontrle de qualité.Un lientommandeàsonfournisseurunlotde10000

thermomètres.Andetesterlaqualitédesthermomètres,lelientenhoisit20auhasardet

lesplonge dansunliquideà20degrés.Ilobtientlesrésultatssuivants:

20.2,20.4,20.1,19.9,19.7,20,20.5,19.9,19.9,20.1,20.4,20.6,20,19.8,20.3,19.6,19.8,20.1,

20.3,20

Quepeut-onendéduiresurlaqualitédesthermomètres?Est-equ'ilsdonnentlabonne

températureenmoyenne?Avequellepréision?

Exemple2: sondage.And'estimerlesintentionsdevotelorsdudeuxièmetourd'une

eletionprésidentielle,uninstitut réaliseunsondage.Sur1000personnes interrogéesau

hasard,520pensentvoterpourleandidatAet 480pourleandidatB.Quepeut-onen

déduiresurlesintentionsdevotedanslapopulationFrançaise?Avequellepréisionle

sondageeetué permet t'ild'estimerlepourentaged'intentiondevoteenfaveurduandidat

A?Peutondéduiredeesondage,aveune ertaineonane,queàladatedusondagele

andidatAestentête?

Exemple3: eaité d'un médiamenten médeine.And'étudierl'eetd'un

nouveaumédiamentenvuederéduirelatensionartérielle,onamesurélatension(enmmde

Hg)sur12patientsavantet aprèstraitement.Lesvaleurssuivantesontétéobtenues:

Avant 200 174 198 170 179 182 193 209 185 155 169 210

Après 191 170 177 167 159 151 176 183 159 145 146 177

Peut-ononlurequeemédiamentréduitlatensionartérielle?

Ondisposedonde

n

observationsnotées

(x 1 , ..., x n ) ∈ R n

(fexemplesi-dessus).Onva

supposertoutd'abordqueesobservationssontuneréalisationd'uneexpérienealéatoire,'està

direqu'ilexistedesvariablesaléatoiresréelles

(X 1 , ..., X n )

dénies surunespaeprobabilisé

(Ω, F , P)

tellesque

(x 1 , ..., x n ) = (X 1 (ω), ..., X n (ω))

ave

ω ∈ Ω

.

Ceipermet demodéliserl'aléatoirequiestgénéralementprésentedanslereueildesdonnées.

Parexemple,danslesexemplesintroduits i-dessus:

(3)

parmiungrandnombred'individus.Si onreommenel'expériene,ilyadefortes hanes

qu'onhoisissed'autresindividuset qu'onobtiennedesrésultatsdiérents:lerésultatde

l'expérieneestdonbien"aléatoire".

Exemples1et3 :aprèsavoirhoisilesindividus,onréalisedesmesuresquipeuventêtre

sujettesàdeserreursexpérimentales.Cei rajoutedel'inertitudeauxrésultatsobtenus.

Onfaitensuitedeshypothèsessurlaloideprobabilitédun-uplet

(X 1 , ..., X n )

.Dans leadre

de e hapitre, onsupposera que e sontdes variablesaléatoires indépendantes et

identiquement distribuées(i.i.d). Ils'agitduadreleplussimple,maisettehypothèsen'est

pastoujoursréaliste:

Lorsqu'ononsidèredesphénomènesindexésparletemps(foursM2surlesséries

temporelles),l'hypothèsed'indépendanen'estgénéralementpasvériée. Parexemple,si

(x 1 , x 2 , ..., x n )

désigneleoursd'unproduit nanierpendant

n

jourssuessifs,alorsonne

peutgénéralementpassupposéequelesobservationssuessives

x i

et

x i+1

proviennentde variablesaléatoiresindépendantes.

Lorsquel'onherheàprédireunevariable(variable àexpliquer)àpartird'autresvariables

(variablesexpliatives),onsupposegénéralementquelaloidelavariableàexpliquerdépend

desvariablesexpliatives.L'hypothèseidentiquementdistribuée n'estplusvériée.Ce serala

asdanslesmodèlesderégressionétudiésdansleshapitressuivants.

Dénition. On appellen-éhantillond'une loide probabilité

P

une suite

(X 1 , ..., X n )

de v.a.

i.i.d. quisuiventle loide probabilité

P

.On notera

X 1 , ..., X n ∼ iid P

Onvaensuitesupposer,dansehapitre,quelaloideprobabilitéommune de

X 1

,

X 2

,...,

X n

estunloideprobabilitéquidépendd'unparamètre inonnu

θ ∈ Θ

ave

Θ ⊂ R k

(statistique paramétrique paroppositionàstatistiquenonparamétrique).Onnoteraalors

X 1 , ..., X n ∼ iid P θ

Parexemple,onsupposerasouventque

X i ∼ iid N (µ, σ 2 )

pour

i ∈ { 1...n }

.Leparamètreinonnuestalors

θ = (µ, σ) ∈ R × R +

.

Onherhealorsàestimer

θ

àpartirdesobservationsdisponibles

(x 1 , ..., x n )

.

Dénition. Soit

(X 1 , ..., X n )

unn-éhantillond'une loi

P θ

.Unestimateurdu paramètre

inonnu

θ

est unevariable aléatoire

T = g(X 1 , ..., X n )

qui s'exprimeen fontionde

(X 1 , ..., X n )

.

Uneestimation de

θ

estalors la valeur numérique prisepar ettestatistiquesurune réalisation partiulière

(x 1 , ..., x n )

,'est àdirela quantité

t = g(x 1 , ..., x n )

.

Exempleetdénition. Prenons l'exemple 1surlaqualité desthermomètres. Onsupposeà

nouveauque

(x 1 , ..., x n )

est uneréalisation d'unéhantillon

(X 1 , ..., X n )

.Laqualitédes

thermomètresest partiellement déritepar lesparamètresinonnus

µ = E[X i ]

(siles

thermomètressont de bonnequalité, alors ils devraient fournirla bonne températureenmoyenne,

'estàdirequ'on devrait avoir

µ = 20

)et

σ 2 = var[X i ]

(quirenseignesurladispersionde

mesuresautourdela valeur moyenne:si

σ = 0

alors touslesthermomètres donnentla même valeur alorssi

σ

estgrand, lesthermomètresindiquentdes températurestrèsdiérentes).

(4)

Unestimateurusuel de

µ

estalors la moyenne empiriquedéniepar

X ¯ = X 1 + ... + X n

n

Unestimateurusuel de

σ 2

estla variane empirique déniepar

S 2 =

P n i=1 X i 2

n − X ¯ 2 = 1 n

n

X

i=1

(X i − X) ¯ 2

Les estimationsorrespondantessont notées

x ¯ = x 1 +...+x n n

et

s 2 = P n i=1 n x 2 i − x ¯ 2

.Ii onobtient

¯

x = 20.08 o

et

s = 0.2657 o

.Lesthermomètressemblentdon indiquer unetempératurelégèrement supérieurà

20 0

,maison peutsedemander siettediérene estsigniativeétantdonné la

faibletaillede l'éhantillon(20 thermomètres seulement)etla forte variabilité entreles

thermomètres. Les intervallesde onanesetlestest statistiquesvusdansla suitede eours

permettront derépondreàettequestion.

Exempleetdénition. Prenons l'exemple 2dusondagesurlesintentionsde vote lorsd'une

életion avedeuxandidats (notésA etB). Leparamètreinonnuestla proportion

π

d'intentionsde vote enfaveur de B dansla population totale. Pourestimer ettequantité,on

sonde1000personneshoisies auhasard,et onode lesrésultatsde la manièresuivante :

x i = 0

sila ième personnesondée pensevoterpourA

x i = 1

sila ième personnesondée pensevoterpourB

Onsupposeque

(x 1 , ..., x n )

estune réalisation d'unéhantillon

(X 1 , ..., X n )

d'une loide Bernoulli

etleparamètreinonnu

θ = π = P[X i = 1]

est leparamètredeetteloi deBernoulli. L'expériene aléatoire onsisteiiàhoisir les1000 personnesauhasardetde manièreindépendantedansla

"population totale".Unestimateur"naturel" de

π

estalors la fréquene empirique

F

de

1

dansla séquene

(X 1 , ..., X n )

,'est àdire :

F = card { i ∈ { 1...n }| X i = 1 }

n =

P n i=1 X i

n

Onretrouveunaspartiulier del'exemple préédentpuisque

π = E[X i ]

et

F

estla moyenne

empiriquede l'éhantillon. Supposonsquelorsdusondage, on trouve que480personnespensent

voterenfaveur duandidat B (i.e. 480"1"dansla série

(x 1 , ..., x n )

). Uneestimation de

π

est

alors

f = card { i ∈ { 1...n }| x i = 1 }

n =

P n i=1 x i

n = 0.48

Remarque. Dans lasuiteduours,les variables aléatoires (parexemple

X i

,

F

,

S

)sont notées

avedeslettresmajusules,lesobservations (

x i

) etlesestimations(

f

,

s

) ave deslettres

minusules.Les paramètresinonnussont notésave deslettresgreques(parexemple

π

,

µ

,

σ

).

2.2 La méthode du maximum de vraisemblane

Lafontiondevraisemblanedéniei-dessousjoueunrle fondamentalenstatistique.

Dénition. Si la loide probabilitéduveteur aléatoire

(X 1 , ..., X n )

admet unedensité

f (x 1 , ..., x n ; θ)

parrapportàune mesuredominante,alors on appellefontion de

vraisemblanela fontionde

θ

déniepar

L(θ; x 1 , ..., x n ) = f (x 1 , ..., x n ; θ)

(5)

Dansleasdeséhantillons i.i.d.,la loide probabilité jointede

(X 1 , ..., X n )

admet une densité

(parrapport àla mesureproduit)dèsquela loi marginalede

X i

admet unedensité

f (x i ; θ)

eton

aalors

L(θ; x 1 , ..., x n ) =

n

Y

i=1

f (x i ; θ)

Enpratique:

Lorsqueles

X i

sont desvariables aléatoire disrètes, alors ononsidèrela densité parrapport à

la mesure deomptage et

f (x i ; θ) = P θ (X i = x i )

.

L(θ; x 1 , ..., x n )

s'interprètealors diretement ommela probabilité ou"vraisemblane" d'observer

(x 1 , ..., x n )

lorsque

θ

estlavraievaleur du

paramètre.

Laplupartdesloisusuellespour lesvariablesaléatoiresontinues(loinormale, loilog-normale,

loigamma,...) sontdéniesparleurs densités

f (x i ; θ)

par-rapportàla mesurede Lebesgue.

Onappellefontion de log-vraisemblane laquantité :

l(θ; x 1 , ..., x n ) = ln(L(θ; x 1 , ..., x n ))

Laméthode dumaximumde vraisemblane onsistealors,étantdonnéeuneréalisation

(x 1 , ..., x n )

d'unéhantillonde loi

P θ

,àprendreomme estimation

t

de

θ

une valeur de

θ

(si elle

existe...)qui rend maximalela fontionde vraisemblane

θ → L(θ; x 1 , ..., x n )

Onnotera

t = h(x 1 , ..., x n ) = argmax θ ∈ Θ L(θ; x 1 , ..., x n )

.L'estimateur du maximum de vraisemblane(EMV)estalors l'estimateur

T = h(X 1 , ..., X n )

.

Remarque. Enpratique, ontravaillesouventavela fontionde log-vraisemblane qui estplus

simpleàmanipuler (lepassage aulog permet de transformer leproduiten somme).Dans lesas

simples,uneétude de fontion(aluldesdérivéspremières etéventuellement seonde, tableaude

variation,...) permetde trouverlemaximumde

l

.Lorsquee n'estpaspossible, une méthode

d'optimisationnumérique estutilisée. AveR, onpeutparexemple utiliserla fontion tdistrdu

pakage MASS.

Exemple. Si

(X 1 , ..., X n )

est unéhantillond'une loi deBernoullide paramètre

θ = π

,alors

1 − π si x i = 0

P π (X i = x i ) =

π si x i = 1

Cei se rééritsous laforme

P π (X i = x i ) = π x i (1 − π) 1 x i pour x i ∈ { 0, 1 }

Soit

(x 1 , ..., x n ) ∈ { 0, 1 } n

une réalisationde

(X 1 , ..., X n )

.Lavraisemblaneest donnéepar

L(π; x 1 , ..., x n ) =

n

Y

i=1

P π (X i = x i )

=

n

Y

i=1

π x i (1 − π) 1 x i

= π P n i=1 x i (1 − π) n P n i=1 x i

(6)

l(π; x 1 , ..., x n ) = ln(π)

n

X

i=1

x i + ln(1 − π)(n −

n

X

i=1

x i )

puisque

∂l(π; x 1 , ..., x n )

∂π

= P n

i=1 x i

π(1 − π) − n 1 − π

Don,enétudiant lesignede la dérivée, onen déduitquela fontionde vraisemblaneatteint

sonmaximumen

P n i=1 x i

n

.L'EMV estdon

F = P n i=1 n X i

.Onretrouve l'estimateurusuel.

Exemple. Ononsidèrelestempératuresjournalières (endegré Celsius)àBrest auoursde

l'été2008 donnéesdans letableaui-dessous :

16.4;14.25;14.5;11.8;13.65;12.2;11.6;13.2;16.9;17.1;16.75;15.2;12.5;12.45;13.65;

12.15;13.45;15.1;16.4;16.5;18.25;17.2;12.95;15.25;16.8;14.35;16.9;18.3;17.75;

15.85;16.1;16;14.4;14.35;16;14.65;14.2;15.05;15.75;16.7;16.05;14.9;15.9;14.5;

18.9;16.8;15.2;15.55;16.95;15.6;15.05;15.5;19.1;20.8;18.15;17.4;18.45;17.45;17.6;

19.25;17.95;17.4;17.95;17.1;16.4;17.95;19.4;17.05;17.35;15.4;17.15;15.8;15.6;

15.9;15.5;13.25;15.6;15.2;16.95;16.25;15.35;16.9;16.05;14.55;16.9;16.35;16.95;

16.3;16.05;16.35;17.85;16.65

1. Réaliser unhistogramme dees observations(on utiliseradeslasses de largeur1degréet

lelogiiel R).

2. Onsupposedansla suitede l'exeriequeesobservations sontune réalisation de n

variables aléatoires

(X 1 , ..., X n )

i.i.d. deloi

N (µ, σ 2 )

.Cette hypothèse voussemble-t-elle réaliste?

3. Quel estl'estimateurdumaximumde vraisemblanede

θ = (µ, σ)

?

4. Appliation numérique.Calulerlesestimations orrespondantessurlesdonnéesde

températurejournalièreàBrest,puis représenter surla gurede laquestion 1. la densité

orrespondante (attentionàl'éhelle!). Commentez.

Solution partielle : 3.Calulde la fontionde vraisemblane. Soit

(X 1 , ..., X n )

un

n-éhantillond'une loi normalede moyenne

µ

etéart-type

σ

,alors la densitéde la v.a.

X i

est

donnée, pour

x i ∈ R

,par:

f θ (x i ) = 1

√ 2πσ exp

− (x i − µ) 22

ave

θ = (µ, σ)

.Don,la fontionde vraisemblaneestdonnée,pour

(x 1 , ..., x n ) ∈ R n

une

réalisation de

(X 1 , ..., X n )

,par:

L(θ; x 1 , ..., x n ) =

n

Y

i=1

f θ (x i )

=

n

Y

i=1

√ 1

2πσ exp

− (x i − µ) 22

= 1

(2π) n/2 σ n exp

− P n

i=1 (x i − µ) 22

L'étudedespointsritiques montrequeettefontionatteint son maximumpour

µ = ¯ x

et

σ = s

.

Pourla loinormale, lesestimateursdumaximumde vraisemblanede

µ

et

σ 2

oïnidentave les

estimateursusuelsde l'espérane etde la variane.

4.Appliation numérique:

x ¯ = 15.9679 o

et

s = 1.7846 o

.

Graphique:f Figure1

(7)

10 12 14 16 18 20 22 0

0.05 0.1 0.15 0.2 0.25 0.3 0.35

Figure1Histogrammedestempératureset densitédelaloinormaleajustée

2.3 Propriétés des estimateurs

Onpeuttoujoursdéniruneinnitéd'estimateurspourunparamètreinonnudonné,eten

pratiqueonherheraàutiliserle"meilleur" deesestimateurs.Ceinéessitededénire

qu'estunbonestimateur.

2.3.1 Biais d'un estimateur

Dénition. On appelle biaisde l'estimateurTla quantité

biais(T ) = E(T ) − θ

Onditquel'estimateur

T

estsans biais lorsque

biais(T ) = 0

,'est àdirelorsque

E[T ] = θ

.Le

biaisreprésente "l'erreur moyenne" quiest faite lorsqu'on utilise

T

pourestimer

θ

.

Proposition. Si

(X 1 , ..., X n )

estunn-éhantillond'une loi de moyenne

E[X i ] = µ

,alors

X ¯

est

unestimateursans biaisde

µ

.

Enpartiulier, si

(X 1 , ..., X n )

estunn-éhantillonde Bernoulli de paramètre

π

alors

F

estun

estimateursansbiaisde

π

.

Sionsupposeen outreque

σ 2 < ∞

alors

E[S 2 ] = n n 1 σ 2

.

S 2

estdon unestimateurbiaisé de

σ 2

,eton préfèreparfoisutilisél'estimateur orrigé

S corr 2 = n

n − 1 S 2 = 1 n − 1

n

X

i=1

(X i − X ¯ ) 2

qui estunestimateursans biaisde

σ 2

.

Remarque. Denombreuxlogiiels statistiques(Exel, R, ...)alulent pardéfautl'estimateur

sansbiaisde la variane

S corr 2

dénii-dessus.

Démonstration. Si

(X 1 , ..., X n )

est unn-éhantillond'uneloid'espérane

µ

alors

E[ ¯ X] = E[ X 1 + ... + X n

n ]

= E[X 1 ] + ... + E[X n ]

= µ n

(8)

Onsupposeque

σ 2 < ∞

.Pardénition,

S 2 = 1

n

n

X

i=1

(X i − X) ¯ 2

etdeladéomposition

(X i − X) = (X ¯ i − µ) − ( ¯ X − µ)

,ondéduitque:

S 2 = 1

n

n

X

i=1

(X i − µ) 2 − 2( ¯ X − µ)(X i − µ) + ( ¯ X − µ) 2

= 1

n

n

X

i=1

(X i − µ) 2 − 2( ¯ X − µ) 1 n

n

X

i=1

(X i − µ) + ( ¯ X − µ) 2

= 1

n

n

X

i=1

(X i − µ) 2 − ( ¯ X − µ) 2

Don

E[S 2 ] = E[ 1 n

n

X

i=1

(X i − µ) 2 − ( ¯ X − µ) 2 ]

= 1

n

n

X

i=1

E[(X i − µ) 2 ] − E[( ¯ X − µ) 2 ]

= σ 2 − E[( ¯ X − µ) 2 ]

Ilresteàaluler

E[( ¯ X − µ) 2 ] = var( ¯ X)

= var( 1 n

n

X

i=1

X i )

= 1

n 2 var(

n

X

i=1

X i )

= 1

n 2

n

X

i=1

var(X i )

= σ 2 n

Finalement,

E[S 2 ] = n − 1 n σ 2

2.3.2 Erreur quadratiquemoyenned'un estimateur

Onmesuregénéralementlapréisiond'unestimateurparsonerreurquadratiquemoyenne.

Dénition. L'erreur quadratique moyenne(EQM) de l'estimateur

T

déniepar

EQM (T ) = E[(T − θ) 2 ]

L'EQMreprésente l'espérane duarréde l'éart entrel'estimateuretleparamètreinonnu:plus

l'EQMest faible,plusl'estimateurestpréis.

(9)

0 1 2 0

0.5 1 1.5 2

β 0

β 1

0 1 2

0 0.5 1 1.5 2

β 0

β 1

0 1 2

0 0.5 1 1.5 2

β 0

β 1

Figure 2 Plusieurs réalisations de trois estimateurs diérents. La vraie valeur du paramètre

est le entre de laible (point de oordonnés

(1, 1)

). Lepremier estimateur (gure de gauhe)

est biaisé (on vise systématiquement tropen bas et à gauhe), alors que les deuxième (gure

dumilieu) et troisième estimateurs (gure de droite) sont non-biaisés. Lavariane dudeuxième

estimateurestplusfortequeelledutroisième estimateur.

Remarque. Onmontrefailementque

E[(T − θ) 2 ] = var(T ) + E[(T − θ)] 2

'estàdirequel'erreur quadratiquemoyenneestégaleàla variane del'estimateur pluslebiais

del'estimateur auarré. Lorsquel'estimateurest non-biaisé,l'EQMoïnide avela variane:

parmideuxestimateurssans biais, lepluspréis estdon elui de varianeminimale (f Figure

2.3.2:lemeilleur estimateuresteluide droite).Cetteformule estégalementutileen pratique

pouraluler l'EQMdesestimateursusuels.

Proposition. Si

(X 1 , ..., X n )

estunn-éhantillond'une loi de moyenne

µ

etde variane

σ 2 < ∞

,alors

EQM ( ¯ X ) = var( ¯ X ) = σ 2 n

Enpartiulier, si

(X 1 , ..., X n )

estunéhantillon de Bernoulli deparamètre

π

alors

EQM (F ) = var(F ) = π(1 − π)

n

Side plus

µ 4 = E[(X i − µ) 4 ] < ∞

,alors

EQM (S corr 2 ) = var(S 2 corr ) = µ 4

n − n − 3 n(n − 1) σ 4

Démonstration. (partielle)

Soit

(X 1 , ..., X n )

est unéhantillond'uneloidemoyenne

µ

etdevariane

σ < ∞

.Onavuque

X ¯

(10)

estunestimateursansbiaisde

µ

etdon

EQM ( ¯ X ) = var( ¯ X)

= var( X 1 + ... + X n

n )

= var(X 1 ) + ... + var(X n ) n 2

= σ 2 n

Lealulde

var(S corr 2 )

estplusdéliat...

2.3.3 L'informationde Fisher

Dénition. On appellequantité d'information de Fisherapportée par unn-éhantillonsur

leparamètre

θ

la quantitésuivante (sielleexiste)

I n (θ) = E[

∂l(θ; X 1 , ..., X n )

∂θ

2

]

Enpratique,ilestsouventplusfailed'utiliserl'une desdeuxformulesdonnéesdansla

propositionsuivantepouralulerl'information deFisher.

Proposition. Sous desonditionsgénérales (f remarquei-dessous),on a:

I n (θ) = var(

∂l(θ; X 1 , ..., X n )

∂θ

)

I n (θ) = − E[

2 l(θ; X 1 , ..., X n )

∂θ 2

]

Démonstration. Onseplae dansleasdesvariablesontinues.Lapreuvedansleasdisret est

similaireenremplaçantlessignes

R

pardessignes

P

.Onpartdelarelation:

Z

R n

L(θ; x 1 , ..., x n )dx 1 ...dx n = 1

(2.1)

quivientdufaitque

L(θ; x 1 , ..., x n )

est laloideprobabilitéd'unn-éhantillon

(X 1 , ..., X n )

dela

loi

P θ

.Notonsque,plusgénéralement,si

g : R n → R

,ona

E[g(X 1 , ..., X n )] =

Z

R n

g(x 1 , ..., x n )L(θ; x 1 , ..., x n )dx 1 ...dx n

Ensuite,pardénitionde

l

,ona

∂L(θ; X 1 , ..., X n )

∂θ = L(θ; X 1 , ..., X n ) ∂l(θ; X 1 , ..., X n )

∂θ

(2.2)

Endérivant(2.1)parrapportà

θ

,et ensupposantqu'onpuisseintervertirlessignes

R

et

,on

obtient

0 = ∂

∂θ Z

R n

L(θ; x 1 , ..., x n )dx 1 ...dx n

= Z

R n

∂θ L(θ; x 1 , ..., x n )dx 1 ...dx n

(11)

Z

R n

L(θ; X 1 , ..., X n ) ∂l(θ; X 1 , ..., X n )

∂θ dx 1 ...dx n = 0

(2.3)

Parailleurs,d'aprèslaremarquepréédente,ona

Z

R n

L(θ; X 1 , ..., X n ) ∂l(θ; X 1 , ..., X n )

∂θ dx 1 ...dx n = E[ ∂l(θ; X 1 , ..., X n )

∂θ ]

Onadon

E[ ∂l(θ;X ∂θ 1 ,...,X n ) ] = 0

puis

I n (θ) = E[

∂l(θ; X 1 , ..., X n )

∂θ

2

]

puisquelav.a.

∂l(θ;X 1 ,...,X n )

∂θ

estentrée.

Endérivant(2.3)parrapportà

θ

,onobtient

Z

R n

L(θ; X 1 , ..., X n ) ∂ 2 l(θ; X 1 , ..., X n )

∂θ 2 +

Z

R n

∂θ L(θ; X 1 , ..., X n ) ∂

∂θ l(θ; X 1 , ..., X n ) = 0

Puis,enutilisantànouveaul'égalité

∂L(θ;X 1 ,...,X n )

∂θ = L(θ; X 1 , ..., X n ) ∂l(θ;X ∂θ 1 ,...,X n )

,onobtientla

deuxièmeégalitédelaproposition.

Remarque. 1. Pour quela propositionpréédentes'applique, il fautdon pouvoirdériver la

vraisemblane deuxfoisparrapportà

θ

(pourtoutx)et intervertirlessignes

et

R

.Ces

hypothèsessont vériéesparleslois usuellesdèsquelesupportde laloi, 'est àdire

l'ensemble

A θ = { x | f (x; θ) ≥ 0 }

,ne dépendpasde

θ

.Unexemple lassiquepourlequelle

supportde la loidépend de

θ

est laas les

X i

suiventune loiuniformesur

[0, θ]

.On

vériealors quelesformules de la proposition préédentene sont pasvériées.

2. Enutilisantla dénition de la log-vraisemblanedansleasdeséhantillons i.i.d.,il est

faile de vérierque

l(θ; x 1 , ..., x n ) = P n

i=1 l(θ; x i )

. Onendéduit aisémentque,sila

proposition préédentes'applique, alors

I n (θ) = nI 1 (θ)

Exemple. Si

(X 1 , ..., X n )

est unéhantillond'une loi deBernoullide paramètre

θ = π

,alors

l(π; x 1 , ..., x n ) =

n

X

i=1

x i ln(π) + (n −

n

X

i=1

x i )ln(1 − π)

Don

∂l(π; x 1 , ..., x n )

∂π

= P n

i=1 x i

v +

P n

i=1 x i − n 1 − π

= P n

i=1 x i

π(1 − π) − n 1 − π

Onendéduit que

E[ ∂l(π;x

1 ,...,x n )

∂π

] = 0

etdon que

E[ ∂l(π;x

1 ,...,x n )

∂π

] = var( ∂l(π;x

1 ,...,x n )

∂π

)

,

puisquel'information de Fisher estdonnéepar

I n (π) = var(

P n i=1 X i

π(1 − π) − n π )

= n

π(1 − π)

(12)

2

∂p 2 l(π; x 1 , ..., x n ) =

n

X

i=1

x i

1 − 2p

π 2 (1 − π) 2 + n (1 − π) 2

puis

E[ ∂ 2

∂π 2 l(π; x 1 , ..., x n )] = − n π(1 − π)

Onretrouvebien lemêmerésultat.

Lethéorèmesuivantestfondamental enstatistiqueinférentielle.

Théorème. (Borne de Fréhet-Darmois-Cramer-Rao (FDCR))

Sousdesonditions générales (f remarquei-dessous),si

T

estune estimateursans biaisde

θ

alors:

var(T ) ≥ 1 I n (θ)

Plusgénéralement,si

T

est unestimateursans biaisde

g(θ)

,alors :

var(T ) ≥ (h (θ)) 2

I n (θ)

Démonstration. Onseplae toujoursdansleasdesvariablesontinues.

Onutilisel'inégalitédeCauhy-Shwartz:

cov(T, ∂

∂θ l(θ)) 2 ≤ var(T )var( ∂

∂θ l(θ))

Ensuite,

cov(T, ∂θ l(θ)) = E[T ∂θ l(θ)]

ar

∂θ l(θ)

estentrée.Don

cov(T, ∂

∂θ l(θ)) = Z

R n

T (x 1 , ..., x n ) ∂

∂θ l(θ; x 1 , ..., x n )L(θ; x 1 , ..., x n )dx 1 ...dx n

= Z

R n

T (x 1 , ..., x n ) ∂

∂θ L(θ; x 1 , ..., x n )dx 1 ...dx n

= ∂

∂θ Z

R n

T (x 1 , ..., x n )L(θ; x 1 , ..., x n )dx 1 ...dx n

= ∂

∂θ E[T ]

= g (θ)

Remarque. Anouveau, pourquelethéorèmepréédents'applique, il fautpouvoirdériver la

vraisemblane deuxfois par rapport à

θ

(pour toutx)etintervertir lessignes

et

R

.Ces

onditionssont généralementvériées lorsquelesupport dela loi nedépend pasde

θ

.

LethéorèmedeFDCRdonneuneborneinférieurepourlavarianed'unestimateursansbiais.

Ondiraqu'unestimateursans biais esteaelorsquesavarianeestégaleàla borne de

FDCR.Plus laquantitéd'informationapportéeparl'éhantillonestgrande,plusborne deFDCR

estpetite.

Parailleurs,si ilexisteunestimateureae,alorsilestuniquep.s.En eet,soit

T 1

et

T 2

deux

estimateurseaesde

θ

.

T 1

et

T 2

sontdonsansbiaisetleursvarianessontégalesàlaborne

deFDCR

V

.Considéronsl'estimateur

T 3 = T 1 +T 2 2

.

T 3

est unestimateursansbiaisde

θ

de

variane

var(T 3 ) = V 2 (1 + cor(T 1 , T 2 ))

. Comme

var(T 3 ) ≥ V

,onendéduit que

cor(T 1 , T 2 ) = 1

puisque

T 1 = T 2 p.s.

(13)

Exemple. Si

(X 1 , ..., X n )

est unéhantillond'une loi deBernoullide paramètre

θ = π

,alors

l'informationde Fisher estdonnéepar

I n (π) = n π(1 − π)

Lethéorème de FDCRnous dit toutestimateursans biaisauraune varianesupérieureà

π(1 − π)

n

.

Or,nous avonsvuque

F = 1 n (X 1 + ... + X n )

estunestimateursansbiaisde

π

etquesavariane

estégale

I n (π) 1

.Onen déduit qu'ils'agitde l'unique estimateureae de

π

,et don le

meilleur(en unertainsens...)

2.3.4 Propriétés asymptotiques

Onnoteradanseparagraphe

T n

unestimateurde

θ

basésurunéhantillondetaille

n

(X 1 , ..., X n )

.Unbonestimateurdoitavoirdebonnes"propriétésasymptotiques",'estàdiredes propriétésdeonvergenelorsque

n → ∞

. Enpartiulier,onpréféreradesestimateursquisont onvergents(ouonsistants).

Dénition.

T n

estunestimateuronvergentde

θ

lorsque

T n

onvergep.s.vers

θ

lorsque

n → ∞

.

Proposition. Si

(X 1 , ..., X n )

estunn-éhantillond'une loi d'espérane

µ

etde variane

σ 2 < ∞

alors

X ¯ n = X 1 + ... + X n

n

estunestimateuronvergentde

µ

.Enpartiulier, si

(X 1 , ..., X n )

estunéhantillonde Bernoulli

deparamètre

π

alors

F n = X 1 + ... + X n

n

estunestimateuronvergentde

π

.

Side plus

µ 4 = E[(X i − µ) 4 ] < ∞

alors

S n 2 = X 1 2 + ... + X n 2 n − X ¯ 2

et

S n,corr 2 = n

n − 1 S 2 = 1 n − 1

n

X

i=1

(X i − X) ¯ 2

sontdesestimateursonvergentsde

σ 2

.

Démonstration. Appliationsdiretesdelaloidesgrandsnombres(LGN).

DenombreuxestimateursvérientunTCL,'estàdiresonttelsque

√ n(T n − θ) → N L (0, σ 2 (θ))

lorsque

n → ∞

.Cetypedeomportementasymptotiqueestourammentutilisépouronstruire desintervallesdeonaneouréaliserdestests(fparagraphessuivants)et estdon

partiulièrementsouhaitable.Onparlerade"normalitéasymptotique".

Proposition. Soit

(X 1 , ..., X n )

estunéhantillond'une loide moyenne

µ

etdevariane

σ 2 < ∞

alors

√ n( ¯ X n − µ) → N L (0, σ 2 )

lorsque

n → ∞

.Enpartiulier, si

(X 1 , ..., X n )

estunéhantillon de Bernoulli deparamètre

π

et

F n = X 1 +...+X n n

,alors

√ n(F n − π) → N L (0, π(1 − π))

lorsque

n → ∞

.

(14)

Lapropositionsuivanteétablitquesousdesonditionsgénérales,l'EMV adebonnespropriétés

asymptotiques.

Proposition. Sous deshypothèses générales (f rqi-dessous),l'EMV estonvergent et

asymptotiquementgaussienet

√ n(T n − θ) → N L (0, 1 I 1 (θ) )

Remarque. 1. Onpeutdon en déduire, sous ertainesréserves, quepour

n

grand

E[T n ] ≈ θ

et

var(T n ) ≈ I n 1 (θ)

.Untelestimateurestdit "asymptotiquementeae". Touteses bonnes propriétés(onvergene, normalité asympotitqueave varianeasymptotiqueonnue,

eaitéasymptotique) justientl'utilisation de la méthode dumaximumde vraisemblane

ommeméthode d'estimationpardéfaut enstatistique.

2. Pourque lethéorème préédent s'applique,il fautpouvoir dériver lavraisemblanetroisfois

parrapportà

θ

(pourtoutx),pouvoirintervertir lessignes

et

R

etque

Θ

soit un

ensembleouvert. Cesonditionssont généralementvériéeslorsquelesupportde laloi ne

dépend pas de

θ

.

2.4 Estimation par intervalle de onane

Danslesparagraphespréédents,desméthodespermettantd'estimerlavaleurd'unparamètre

inonnu

θ

àpartird'observationsontétéproposées.Cesméthodesfournissentseulementune valeur("estimation pontuelle"),maisnepermettentpasdequantierlapréisiondeette

estimation.Pourela,onutilisegénéralementdesintervallesdeonanequipeuvent

s'interpréterommedesmargesd'erreur.

2.4.1 Constrution d'intervallesde onanepourla moyenned'un éhantillon

Gaussien lorsquela variane est onnue

Onsupposedanseparagrapheque

X 1 , ..., X n

estunn-éhantillond'uneloi

N (µ, σ 2 )

.On

herheàestimer

µ

,supposéinonnu,maisonsupposequel'éart-type

σ

est onnu.Cei est

rarementleasenpratique,et easpartiulieradonprinipalementunobjetifpédagogique.

Nousreviendronssurlaonstrutiond'intervallesdeonanelamoyenned'unéhantillonsous

deshypothèsesplusréalistesdanslasuitedeeours.

Aveleshypothèsesi-dessus,onpeutmontrerque

X ¯ ∼ N (µ, σ n 2 )

puisque

√ n X ¯ σ µ ∼ N (0, 1)

et

don

P [u α/2 ≤ √

n X ¯ − µ

σ ≤ u 1 − α/2 ] = 1 − α

ave

u α

lequantiled'ordre

α

delaloi

N (0, 1)

,equiserérit

P [ ¯ X + u α/2

√ σ n ≤ µ ≤ X ¯ + u 1 − α/2

√ σ n ] = 1 − α

L'intervalle

[ ¯ X + u α/2 √ σ n ; ¯ X + u 1 − α/2 √ σ n ]

estunintervallealéatoire(puisquelesbornes

dépendentdesvariablesaléatoires

X 1 , ..., X n

)qui ontientlavraie valeurduparamètre

µ

ave

uneprobabilité

1 − α

.Untelintervalleestappeléintervalledeonaneauniveaudeonane

1 − α

pour

µ

.

Enpratiquelesquantilesdelaloi

N (0, 1)

peuventêtreobtenusenutilisantdestablesstatistiques oudeslogiielsadaptés(R,Matlab,SAS,Exel...)

Dénition: l'intervallealéatoire

[a(X 1 , ..., X n ); b(X 1 , ..., X n )]

est appelé intervalle de

onaneauniveaudeonane

1 − α

pour

θ

si

P [a(X 1 , ..., X n ) ≤ θ ≤ b(X 1 , ..., X n )]] = 1 − α

.

(15)

Lorsquelatailledel'éhantillon

n

estsusammentgrande,onpeutonstruiredesintervallesde onanepourlamoyenne

µ

enutilisantlespropriétésasymptotiquesde

X ¯

et

S 2

données

i-dessus.

Pluspréisément,soit

(X 1 , ..., X n )

unn-éhantillond'uneloivériant

var(X i ) = σ 2 < + ∞

.Pour

"ngrand",d'aprèsleTCL,ona:

√ n X ¯ − µ

σ ≈ N (0, 1)

Cetteapproximationestvalable mêmesil'éhantillonn'estpasgaussienet permet defairedes

intervallesdeonanelorsque

σ

estonnu.Lorsque

σ

estinonnu,onpeututiliserlefaitque

S 2

estunestimateuronvergentde

σ 2

,etdonpour"ngrand",ona

S ≈ σ

Finalement,onendéduitquepour"ngrand":

√ n X ¯ − µ

S ≈ N (0, 1)

UnedémonstrationrigoureusedeerésultatpeutêtreobtenueenutilisantlelemnedeSlutsky:

onpeutmontrerque,souslesonditionsd'appliationduTCL,

√ n X ¯ S µ

onvergeenloiversune

loi

N (0, 1)

.

Enpratique,onsuppose généralementqueette approximationestvalidedèsque

n ≥ 30

(!).On

aalors:

P [u α/2 ≤ √

n X ¯ − µ

S ≤ u 1 − α/2 ] ≈ 1 − α

puis

P [ ¯ X + u α/2

√ S n ≤ µ ≤ X ¯ + u 1 − α/2

√ S n ] ≈ 1 − α

L'intervalle

[ ¯ X + u α/2 √ S

n ; ¯ X + u 1 − α/2 √ S

n ]

estappelé "intervallede onaneasymptotique"

auniveaudeonane

1 − α

pour

µ

.

Exemple. Onreprend lesdonnéesde températureàBrest(f paragraphe2.2).

1. Donnerunintervallede onaneà95% pourla température moyenne,disuter la validité

deshypothèsessurlesquellesreposelaonstrution de etintervalle.

2. Une agene devoyage prétendquela températuremoyenneàBresten étéest de

19 o

.Qu'en

pensez-vous?

2.4.3 Constrution d'intervallesde onanepourune proportion

Ilest égalementpossibledeonstruiredesintervallesdeonanepouruneproportionlorsquen

estgrand.Soit

X 1 , ..., X n

unn-éhantillond'uneloideBernoullideparamètre

π

.D'aprèsle

TCL,onsaitquepourngrand :

√ n F − π

p π(1 − π) ≈ N (0, 1)

Comme

F

estunestimateuronsistentde

π

, pourngrand,onpeutremplaerledénominateur par

F (1 − F)

(demanièreplusformelle,onpeututiliserlelemmedeStudsky),et onaalors:

√ n F − π

p F (1 − F ) ≈ N (0, 1)

(16)

P [u α/2 ≤ √

n F − π

p F (1 − F ) ≤ u 1 − α/2 ] ≈ 1 − α

etenn

P [F + u α/2

p F (1 − F )

√ n ≤ π ≤ F + u 1 − α/2

p F(1 − F )

√ n ] ≈ 1 − α

Don

[F + u α/2

√ F(1 − F)

√ n ; F + u 1 − α/2

√ F(1 − F)

√ n ]

estunintervalle deonaneasymptotiqueau niveaudeonane

1 − α

pour

π

.En pratique,onsupposegénéralementqueette approximation estvalabledèsque

nπ ≥ 5

et

n(1 − π) ≥ 5

. Comme

π

est inonnuenpratique,onvériea

posteriorisilesonditionssontvériéespourlesbornesdel'intervalledeonane,'estàdire

n(F − u α/2

√ F(1 − F)

√ n ) ≥ 5

et

n(1 − F − u 1 − α/2

√ F (1 − F)

√ n ) ≥ 5

Exemple. Onreprend l'exemple dusondage.

1. Donnerunintervallede onaneà

95%

pourlesintentionsde vote.

2. Combien depersonnefaudrait-ilsonderpour êtreertaind'obtenirunintervallede

onaneà

95%

dontlalargeur estinférieur à

0.1%

?

2.5 Tests statistiques

2.5.1 Généralité sur lestests

Unteststatistiquepermetdevériersiertaineshypothèsesfaitessurlavaleurdesparamètres

sontréalistesounon.Pluspréisément,dansleadredeeours,nousnousintéresseronsàtester

deshypothèsesdelaforme

H 0 : θ ∈ Θ 0

ontrel'hypothèsealternative

H 1 : θ / ∈ Θ 0

ave

Θ 0 ⊂ Θ

.

Ondistingueusuellementdeux typesd'erreurs:

L'erreurde premièreespèe quionsisteàrejeter

H 0

alorsque

H 0

estvraie.Onappelle

risquede premièreespèe

α

laprobabilitédehoisir

H 1

alorsque

H 0

est vraie.

L'erreurde deuxième espèequi onsisteàaepter

H 0

alorsque

H 0

estfausse.Onappelle

risquede deuxièmeespèe

β

laprobabilitédehoisir

H 0

alorsque

H 0

est fausse.

Enpratique,onxegénéralement

α

(valeursourantes:5%ou1%)et

H 0

jouedonunrleplus

importantque

H 1

.

1 − β

est appelélapuissane dutest: pourunrisquedepremièreespèe

α

xé,onherheàonstruireletestdontlapuissaneest laplusgrande!

2.5.2 Tests pourune moyenne

Ondisposed'unn-éhantillon

(X 1 , ..., X n )

d'uneloid'espéraneinonnue

µ = E[X i ]

et onveut

testerl'hypothèsesimple:

H 0 : µ = µ 0

ontrel'hypothèsealternative

H 1 : µ 6 = µ 0

ave

µ 0

unevaleurxée.

Premieras :supposons que

(X 1 , ..., X n ) ∼ iid N (µ, σ 2 )

ave

σ

onnue(fparagraphesurles

intervallesdeonane).Onaalors:

√ n X ¯ − µ

σ ∼ N (0, 1)

(17)

Don,si

H 0

estvraie,ona

µ = µ 0

et

P H 0 [u α/2 ≤ √

n X ¯ − µ 0

σ ≤ u 1 − α /2] = 1 − α

Onadoptealorslarègle de déisionsuivante :

Onaepte

H 0

si

n X ¯ σ µ 0 ∈ [u α/2 , u 1 − α/2 ]

.

Onrefuse

H 0

sinon.

Remarque. 1. Onaepte don

H 0

lorsque,

X ¯ ∈ [µ 0 + u α/2

√ σ n , µ 0 + u 1 − α/2

√ σ n ]

'est àdirelorsque

X ¯

estsusamment prohe de

µ 0

.Larègle de déision estonstruite

pour quelerisquede premièreespèe soitbienégal à

α

.

2. Lorsqu'on faituntestaveunlogiiel de statistique(R,SAS,Exel,...), lerésultat est

donné sousla forme d'une "p-value"(ou"degré de signiation").Pourletest

préédent, ettep-valueest déniepar

p v = P[ | Z | > | √

n ¯ x − µ 0

σ | ]

ave

Z

une variable gaussienneentrée-réduiteet

x ¯

la moyenneobservée surl'éhantillon.

On vérieaisémentqu'on aepte

H 0

ave unrisquede premièreespèe

α

sietseulement

si

p v > alpha

.Lap-value estsouventinterprétéeommeune"mesure" dela vraisemblane de l'hypothèse

H 0

:une p-valuefaible indiqueque l'hypothèse

H 0

estpeuvraisemblable.

Deuxièmeas:onnesupposeplusquel'éhantillonest gaussienniquelavariane

σ 2

est

onnue.Parontre,onsupposeque

n

estsusammentgrand(

n ≥ 30

?)pourque

l'approximation

√ n X ¯ − µ

S ≈ N (0, 1)

soitvalable.Alors,si

H 0

estvraie, ona

µ = µ 0

et

P H 0 [u α/2 ≤ √

n X ¯ − µ 0

S ≤ u 1 − α/2 ] = 1 − α

Onadoptealorslarèglededéisionsuivante:

Onaepte

H 0

si

√ n X ¯ S µ 0 ∈ [u α/2 , u 1 − α/2 ]

.

Onrefuse

H 0

sinon.

Remarque. Iila p-value dutestestdonnéepar

p v = P[ | Z | > | √

n x ¯ − µ 0

s | ]

ave

Z

une variable gaussienneentrée-réduiteet

x ¯

(resp.

s

) la moyenne(resp. l'éart-type) observée surl'éhantillon

Exemple. Uneagenede voyage prétendquela températuremoyenneàBresten étéestde

22 o

.

Cettearmation est-elleen aordave lestempératures observéspendant l'été2008 (f hapitre

2.2)?Quelleestla p-value dutest?

2.5.3 Test pour uneproportion

Ondisposed'unn-éhantillon

(X 1 , ..., X n )

d'uneloideBernoullideparamètre

π

inonnu,eton

veuttesterl'hypothèsesimple

H 0 : π = π 0

ontrel'hypothèsealternative

H 1 : π 6 = π 0

(18)

√ n F − π

p π(1 − π) ≈ N (0, 1)

Don,si

H 0

estvraie,ona

π = π 0

et

P H 0 [u α/2 ≤ √

n F − π 0

p π 0 (1 − π 0 ) ≤ u 1 − α/2 ] ≈ 1 − α

Onsupposegénéralementqueetteapproximationestvalablelorsque

nπ ≥ 5

et

n(1 − π) ≥ 5

.On

adoptealorslarèglededéisionsuivante:

Onaepte

H 0

si

√ n √ F π 0

π 0 (1 − π 0 ) ∈ [u α/2 , u 1 − α/2 ]

.

Onrefuse

H 0

sinon.

Exemple. And'estimerles intentionsde votelors dudeuxièmetourd'une életion

présidentielle, uninstitutréalise unsondage. Sur1000 personnesinterrogéesauhasard,520

pensentvoterpour leandidat Aet480 pour leandidat B.Etantdonnés lesrésultatsde e

sondage, peut-onen déduire quelandidatva gagner l'életion?

2.6 Exeries sur le hapitre 2

Exerie 2.1. Lors duontrled'unhaînede médiaments,on s'intéresseaunombre de

omprimés défetueuxdansunlot.Lestestseetuéssur20lotshoisis auhasardont donnéles

résultatssuivants:

1,0,0,3,2,0,5,2 ,0 ,0 ,1 ,2, 1, 3, 0, 1,0 ,0 ,2 ,7

Onsupposeraqueesobservationsproviennentd'unéhantillond'une loide probabilitéinonnue,

d'espérane mathématique

µ

etde variane

σ 2

.

a.Ononsidère lesquatreestimateurssuivantspour

µ

:

T 1 = X 1

T 2 = X 1 +X 2 2

T 3 = X 1 +X 3 2

X ¯ = X 1 +X 2 +...+X n n

Quereprésentent

X i

et

n

dansla dénition desestimateurs?Quelleshypothèses sont faitessur

X 1 , X 2 , ..., X n

?

Calulerlebiais, la varianeet l'erreurquadratiquemoyennede es4estimateurs. Quel estle

meilleurestimateur?Quelleest l'estimationorrespondante?

b.Proposer unestimateurde

σ 2

etalulerl'estimation orrespondante.

.Proposer unestimateurde la proportion delotsqui ontiennentaumoinsunomprimé

défetueuxetaluler l'estimation orrespondante.

Exerie 2.2. Existe-t-ilunestimateursans biaisduparamètre

θ = π 1

pourunéhantillonde

taille1d'une loi de Bernoulli deparamètre

π

?

Exerie 2.3. Soit

(X 1 , ..., X n )

n variables aléatoiresi.i.d. d'une loide moyenne

µ

et de

variane

σ 2

.

a.Donnerune onditionnéessaireetsusante surlesonstantesréelles

a 1 , ..., a n

pourque

P n

i=1 a i X i

soitunestimateursans biaisde

µ

.

b.Parmi touslesestimateursde

µ

de la forme

P n

i=1 a i X i

,quelestelui de variane minimale?

Quelestlebiais deetestimateur?

.Parmi touslesestimateursde

µ

de la forme

P n

i=1 a i X i

,quelestelui dontl'erreur

quadratique moyenneestminimale?

d.Parmiles estimateurssans biaisde

µ

de la forme

P n

i=1 a i X i

,quelest elui devariane

minimale?

(19)

Exerie 2.4. Soit

(X 1 , ..., X n )

n variables aléatoiresi.i.d. qui suiventune loinormale

d'espérane

0

etde variane

σ 2

.Ononsidèrel'estimateursuivantpour

σ 2

:

T = n 1 P n i=1 X i 2

a.Caluler lebiais,la variane etl'erreur quadratique moyennedeetestimateur.

b.Etudier lespropriétés asymptotiquesde l'estimateur(onvergene, normalitéasymptotique).

Exerie 2.5. Onaobservé lesdurées de vie(en heure)de 30 omposantséletroniques.Les

résultatssuivantsontétéobtenus :0.1;7.4;1.0;7.9;2.1;1.8;17.9;9.3;6.5;3.3;5.6;7.7;

0.1;24.3;8.1;10.0;11.9;1.6;2.7;0.5;5.8;42.5;5.1;2.0;0.2;15.0;3.5;6.4;0.6;3.3

Onadmettraque

P 30

i=1 x i = 223.5

et

P 30

i=1 x 2 i = 3826.8

.

Première partie.Onsupposedansettepremière partie quela durée de viedesomposants

életroniques suituneloi exponentiellede paramètreinonnu

θ > 0

.Onrappellequela densité de

etteloiestdonnéepar:

f θ (x) = 1

θ exp( − x θ )

a.Construire unestimateurde

θ

en utilisantla méthode desmomentsetdonner l'estimation orrespondante.

b.Caluler l'estimateurdumaximumde vraisemblane

T n

de

θ

ainsiquel'estimation orrespondante.

.Caluler lebiaisetl'erreur quadratique moyennede

T n

.Cet estimateurest-ileae?

d.Etudier lespropriétés asymptotiquesde

T n

(onvergene, normalitéasymptotique). Endéduire unintervallede onane asymptotiqueà95% pour

θ

.

e.Caluler lafontion de répartitionde la loiexponentielle, puis endéduireunestimateurde la

probabilitéquela durée devie d'unomposantsoit supérieureàune duréequelonque

t ≥ 0

.En

déduireune estimationde la probabilité quela duréede vie d'unomposantsoit supérieure à20h,

30het40het ompareres résultatsave lesfréquenes empiriquesalulées àpartirdesdonnées.

Quelestlemeilleur estimateur?

f.Traer surunmême graphique la densitéde la loiexponentielleajustéeetunhistogramme

dérivantla répartition desduréesde vie observées(on utiliseraundéoupage en lassesde

largeur3). Disuterla qualitéde l'ajustement.

Deuxième partie.Onsupposemaintenantquela duréede vie desomposantséletroniques suit

uneloi dontladensité de probabilité estdonnéepar :

f θ (x) = x

θ 2 exp( − x θ ) si x ≥ 0

0 sinon

(2.4)

ave

θ > 0

unparamètreinonnu.

a.Caluls préliminaires. Onpose,pour

n ≥ 0

,

J n (θ) =

Z + ∞ 0

x n exp( − x θ )

1. Montrer,àl'aided'une intégrationparpartie, quepour

n ≥ 0 J n+1 (θ) = (n + 1)θJ n (θ)

.En

déduire que

J n (θ) = θ n+1 n!

2. Endéduire que

f θ

dénitbienune densité,puis quesiqueest unevariable aléatoiredontla

loiadmet la densité

f θ

alors

E[X ] = 2θ

et

var(X ) = 2θ 2

3. Construireunestimateurde

θ

enutilisant la méthode desmoments.

b.Caluler l'estimateurdumaximumde vraisemblane

T n

de

θ

,ainsi quel'estimation orrespondante.

.Caluler lebiaisetl'erreur quadratique moyennede

T n

.Cet estimateurest-ileae?

d.Etudierlespropriétésasymptotiquesde

T n

.Endéduireunintervallede onaneasymptotique à95%pour

θ

.

(20)

mortels(horssuiide)surespassages entre1985 et1997.Lesnombresobservés sont les

suivants:

1985 :3

1988 :2

1991,1993,1995,1 997 :1

Onsupposeque lenombre d'aidents

X

auours d'uneannéesuitune loide poisson de

paramètre

θ > 0

inonnu. Onaalors,pour

k ≥ 0

,

P[X = k; θ] = θ k exp( − θ) k!

Onadmettraque

E[X] = θ

et

var(X ) = θ

.

a.Caluler l'estimateurdumaximumde vraisemblane de

θ

,puis uneestimationde

θ

baséesur

lesobservations.

b.Calulerlebiaisetl'erreurquadratiquemoyennedel'estimateurde laquestion a.,puisétudier

sespropriétés asymptotiques.Cetestimateurest-ileae?

.Donnerunintervallede onaneasymptotiqueà95% pour

θ

.

Exerie 2.7. Soit

(X 1 , ..., X n )

unn-éhantillond'une variable aléatoirenormale de moyenne

µ

etd'éart type

σ

.Onrappellequela densité de

X i

est donnéepar

f θ (x) = 1 σ √

2π exp( − (x − µ) 22 )

ave

θ = (µ, σ)

.

Première partie.Onsupposedansettepartie que

σ

estonnuet

µ

inonnu.

a.Caluler l'estimateurdumaximumde vraisemblane de

µ

ainsi quelaquantité d'information de Fisherapportée par l'éhantillon sureparamètre. Comment varieettequantité ave

σ

?

Commenter.

b.L'estimateur de la questionpréédenteest-ileae?

Deuxième partie.Onsupposedansettepartieque

µ

estonnuet

σ

inonnu.

a.Caluler l'estimateurdumaximumde vraisemblane de

σ

ainsi quelaquantité d'information de Fisherapportée par l'éhantillon sureparamètre.

b.L'estimateur de la questionpréédenteest-ileae?

Troisième partie.Onsupposedorénavantque

µ

et

σ

sont inonnus. Calulerl'estimateurdu maximumde vraisemblaneorrespondant.

Exerie 2.8. Soit

(X 1 , ..., X n )

desvariables aléatoiresindépendantesetidentiquement distribuéesde loiuniformesurl'intervalle

[0, θ]

.Ladensité de

X i

estalors donnéepar

f (x; θ) = 1

θ si x ∈ [0, θ]

0 sinon

a.Vérier que

f (.; θ)

estbienune densité etmontrerque l'espéraneet lavarianede etteloi

sontdonnées par

E[X] = θ/2

et

var(X) = θ 2 /12

.

b.Donnerunestimateur

T n

de

θ

parla méthode desmoments.

1. Calulerlebiaiset la varianede etestimateur.

2. Etudier lespropriétés asymptotiquesde

θ

(onvergene, normalité asymptotique).

3. Endéduire unintervalle de onaneasymptotique à95%pour

θ

.

.Montrer que

M n = max(X 1 , ..., X n )

est l'estimateurdumaximumde vraisemblane de

θ

.

1. Montrerque

F M n

,lafontion de répartitionde

M n

,est

F M n (m) = m θ

n

1 l [0,θ] (m) + 1 l ]θ,+ ∞ [ (m)

Références

Documents relatifs

[r]

La fonction f 0 est d´ efinie sur [0; 7] car le d´ enominateur de f ne s’annule pas sur

La fonction f est d´ efinie et d´ erivable

La répartition d’un collège en fonction de la couleur de leurs tenues d’EPS a donné le tableau suivant :.. Couleur VERT ROUGE

Dans le but de protéger la confidentialité de ses échanges, une agence de renseignement a contacté un informaticien pour mettre sur pied un procède de codage et voudrait que

Artificial Neural Networks: From Perceptron to Deep Learning 1 © 2021 ⏐ Younès Bennani - USPN.. Artificial

En déduire tous les éléments du

To sum up, as long as the frogs leap to opposite sides on a straight line, they will end up in the same final state after a finite amount of leaps.. Leaping in the Same Direction on