et estimation des paramètres
Shuyan LIU
Laboratoire Paul Painlevé Université des Sciences et Technologies Lille 1
10 décembre 2009
GÉNÉRALITÉS SUR LES LOIS STABLES
I Fonction caractéristique
I Manque de l’expression simple de la densité
I Moments d’ordrep< αuniquement
I Estimation des paramètres : problème ouvert, riche littérature CONTEXTE DU TRAVAIL
I Loisα-stables non-gaussiennes : un sous-ensemble des lois à queue régulière
I Lois strictement stables dans un cône convexe
I Lien entre les lois stables et les processus ponctuels
I Une méthode d’estimation des paramètres d’une loi stable dansRd proposée par Davydov et Paulauskas [DP99], [DPR00]
Partie I : Lois à queue régulière et lois stables
I Étude nécessaire pour la construction des algorithmes de simulation
I Lien entre la variation régulière, les lois stables et les processus ponctuels
I Préservation de régularité par trois sortes de transformations
I Simulation des vecteurs aléatoires stables, max-stables et appartenant au domaine d’attraction d’une loi stable
Partie II : Estimation des paramètres
I Estimation des paramètres des lois à queue régulière dans le cône convexe
I Estimation de la densité de mesure spectrale
I Estimation basée sur l’échantillon permuté
I Algorithme d’estimation : mise en oeuvre et analyse des performances Partie III : Application
I Estimation des paramètres et tests statistiques sur des données provenant de l’astronomie et de l’économie
Plan de l’exposé
1
Lois à queue régulière et lois stables dans un cône
Définitions et exemples
Transformations des lois à queue régulière
2
Estimation de l’indice caractéristique et de la mesure spectrale
Algorithme d’estimation Consistance
Normalité asymptotique Estimation de la densité deσ
3
Application : Étude des perturbations planétaires des comètes du nuage de Oort
Analyse exploratoire
Inférence statistique du modèle de loi à queue régulière
4
Conclusion et perspectives
Plan de l’exposé
1
Lois à queue régulière et lois stables dans un cône
Définitions et exemples
Transformations des lois à queue régulière
2
Estimation de l’indice caractéristique et de la mesure spectrale
Algorithme d’estimation Consistance
Normalité asymptotique Estimation de la densité deσ
3
Application : Étude des perturbations planétaires des comètes du nuage de Oort
Analyse exploratoire
Inférence statistique du modèle de loi à queue régulière
4
Conclusion et perspectives
Cône convexe
Définition
Uncône convexe IK est un semigroupe abélien topologique, supposé complet et séparable, avec une opération continue(x,a)→ax de multiplication par des scalaires positifs pour x ∈IK et a>0tel que les conditions suivantes sont satisfaites:
1 a(x+y) =ax+ay, a>0, x,y ∈IK
2 a(bx) = (ab)x, a,b>0, x∈IK
3 1x=x, x∈IK
4 ae=e, a>0, eest l’élément neutre de IK.
Notons
IK0=IK\{0,e}.
Lois à queue régulière
Définition
Un e.a. X ∈IK a uneloi à queue régulièred’indiceα >0 si∃σ, une mesure finie sur S ={x| kxk=1,x∈IK}, telle que∀B∈ B(S)etσ(∂B) =0,
x→∞lim xα L(x)P
X
kXk ∈B,kXk>x
=σ(B), (X ∈VR(α, σ))
où L est une fonction à variation lente, i.e. L(λxL(x)) →1quand x → ∞, ∀λ >0.
Loi strictement α -stable
Définition
Un e.a. X ∈IK a uneloi strictementα-stablesi∀a,b>0 a1/αX1+b1/αX2
= (aL +b)1/αX, (StαS)
où X1,X2sont des copies indépendantes de X .
Loi strictement α -stable
Exemples
IK= (Rd,+) : α∈(0,2],Sd(α, σ),
S1(α,(β, γ)),γ=σ(1) +σ(−1),β= σ(1)−σ(−1)γ .
I α=2: lois gaussiennes,p(x) =2σ1√πe−x
2 4σ2.
I α=1: lois de Cauchy,p(x) =π(x2σ+σ2).
I α=1/2: lois de Lévy,p(x) = 2πσ1/2 1
x3/2exp −2xσ . IK= (Rd+,∨): α∈(0,∞),MSd(α, σ).
I d =1: lois de Fréchet, Φα=exp(−(x/σ)−α).
Pour plus d’exemples, voir [DMS08].
S1(α,(β, γ)) S2(0.75, σ) MS2(0.75, σ) Dépendance deβ σ : uniforme surS1 σ: uniforme surS∨1
−5 −4 −3 −2 −1 0 1 2 3 4 5
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
!=−1
!=0
!=1
−2 −1 0 1 2
−2
−1 0 1 2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Dépendance deαetγ σ: discrète σ: discrète
−9 −7 −5 −3 −1 1 3 5 7 9
0 0.1 0.2 0.3 0.4 0.5 0.6
!=1.5,"=1,#=5
!=1.5,"=2,#=5
!=0.5,"=1,#=−5
!=0.5,"=2,#=−5
−2 −1 0 1 2
−2
−1 0 1 2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Transformations des lois à queue régulière
SoitX un e.a. dans IK0 tel queX ∈VR(α, σ), f :S→S,µ=σf−1,
h:S →R+,ν une mesure finie surS telle quedν/dσ=h(x)α. Nous considérons l’e.a. Y =
kXk,f
X kXk
etZ = kXkh
X kXk
,kXkX . Théorème 1.1 (Transformation sphérique)
Si f est σ-p.p. continue, alors Y ∈VR(α, µ).
Théorème 1.2 (Transformation radiale, condition forte) Si h estσ-p.p. continue et bornée, alors Z ∈VR(α, ν).
Théorème 1.3 (Transformation radiale, condition moins forte) Supposons que les variables kXkX etkXksont indépendantes.
SiR
Shα+εdσ <∞pour unε >0, alors Z ∈VR(α, ν).
Projections des lois à queue régulière dans R
dSoitx= (x1, . . . ,xd)un vecteur dansRd. Notons xk= (x1, . . . ,xk), 1≤k <d.
Définissons
Λk :Rd\{x |x1=· · ·=xk =0} → Rk, x 7→ xk
kxkkkxk.
Υk:Sd−1\{x |x1=· · ·=xk=0} → Sk−1, x 7→ xk
kxkk.
Proposition 1.1
Soit X un v.a. dans Rd tel que X ∈VR(α, σ). Alors pour un nombre entier k, 1≤k<d , on aΛk(X)∈VR(α, σk)oùσk= Υk(σ).
Plan de l’exposé
1
Lois à queue régulière et lois stables dans un cône
Définitions et exemples
Transformations des lois à queue régulière
2
Estimation de l’indice caractéristique et de la mesure spectrale
Algorithme d’estimation Consistance
Normalité asymptotique Estimation de la densité deσ
3
Application : Étude des perturbations planétaires des comètes du nuage de Oort
Analyse exploratoire
Inférence statistique du modèle de loi à queue régulière
4
Conclusion et perspectives
Algorithme d’estimation
Soitξ1, . . . , ξN des e.a. i.i.d. suivant une loi à queue régulière.
Étape 1 On divise l’échantillon enngroupes disjoints, chacun contientm éléments, i.e.
ξ1, . . . , ξm,
| {z } Gm,1
ξm+1, . . . , ξ2m
| {z }
, . . . , Gm,2
ξ(n−1)m+1, . . . , ξnm.
| {z } Gm,n
En pratique on choisitn= [Nr]etm= [N1−r],r ∈(0,1).
Étape 2 NotonsMm,i(1) =max{kξk:ξ∈Gm,i},
ξm,i : l’élément dansGm,i tel quekξm,ik=Mm,i(1), Mm,i(2) =max{kξk:ξ∈Gm,i\{ξm,i}}, i=1, . . . ,n.
Étape 3 CalculonsSn=
n
P
i=1 M(2)m,i
M(1)m,i,θm,i= kξξm,i
m,ik,qm,i = M
(1) m,i
m1/α, ˆ
αN = n−SSn
n, (2.1)
ˆ
σN(·) = 1nPn
i=1δθm,i(·), (2.2)
σ(S)[N =
1 nΓ(1−αt)
Pn
i=1qm,it αt
, t>0. (2.3)
Un exemple de données simulées
Densité de loiS1(1.5,(0.5,1))
Un exemple de données simulées
Données simulées de loiS1(1.5,(0.5,1)),N=1500
Un exemple de données simulées
Histogrammes
Un exemple de données simulées
Diviser l’échantillon en 80 groupes, chacun contient 18 éléments.
- ...
A A
A U
Un exemple de données simulées
Diviser l’échantillon en 80 groupes, chacun contient 18 éléments.
- ...
A A
A U
Un exemple de données simulées
Calculer les valeurs deαˆN,βˆNetγˆN: 1.78, 0.42 et 0.77.
- ...
A A
A U
Mm,1(2)
Mm,1(1) =4.618.70=0.53 θm,1=−1
Mm,2(2)
Mm,2(1) =3.123.44=0.91 θm,2=1
...
Mm,80(2)
Mm,80(1) = 2.462.86 =0.86 θm,80=1
Résultats auxiliaires pour la consistance des estimateurs
Lemme 2.1 (Statistique d’ordre) Soit X un e.a. dans IK0 tel que X ∈VR(α, σ),
Y1,Y2, . . .des variables aléatoires i.i.d. suivant la loi F(x) =P{kXk<x}, Yn,1,Yn,2,· · ·,Yn,n, Yn,1≥Yn,2≥ · · · ≥Yn,n, les statistiques d’ordre de Y1,Y2, . . . ,Yn.
Alors bn−1(Yn,1, . . . ,Yn,n,0,0, . . .)⇒σ(S)1/α(Γ−1/α1 ,Γ−1/α2 , . . .).
Résultats auxiliaires pour la consistance des estimateurs
Proposition 2.1 (LGN pour le schéma triangulaire)
Soient{Xm,i,1≤i≤n} des variables aléatoires réelles i.i.d. pour chaque m.
Supposons que
n∼Nr, m∼N1−r quand N→ ∞
où0<r <1 est une constante et N ∈N. S’il existe un nombre réel k >2r et une constante M >0 tels queE|Xm,1|k≤M<∞, alors
1 n
n
X
i=1
Xm,i−EXm,1 p.s.
−−−−→
N→∞ 0.
Consistance
Soientξ, ξ1, . . . , ξN des e.a. i.i.d. à valeurs dans IK0 tels que ξ∈VR(α, σ).
SiSn etσˆN sont défini par (2.1) et (2.2) avec n∼Nr, 0<r<1, alors on a
1 nSn
−−−−→p.s.
N→∞
α
1+α (Th. 1.2.4).
et
ˆ σN
p.s.⇒ σ quandN→ ∞ (Prop. 1.2.2).
Si la condition de régularité (VR) est satisfaite avec L(x) =1 et σ(S[)N est défini par (2.3) avecn∼Nr, 0<r <1, et 0<t< αr2, alors on a
σ(S)[N−σ(S)−−−−→p.s.
N→∞ 0 (Th. 1.2.6).
Conditions pour établir la normalité asymptotique
I L’e.a. ξ∈IK satisfait àla relation asymptotique du second ordre si P{kξk>x}=σ(S)x−α+cx−ρ+o(x−ρ) quand x → ∞, (RS) avec 0< α < ρ≤ ∞oùc est une constante.
I L’e.a. ξ∈IK satisfait àla relation forte du second ordre si∀B ∈ B(S)tel queσ(∂B) =0
P ξ
kξk ∈B,kξk>x
=σ(B)x−α+cx−ρ+o(x−ρ)quandx → ∞, (RFS) avec 0< α < ρ≤ ∞oùc est une constante.
Remarque
(RFS)⇒ξ∈VR(α, σ).
Normalité asymptotique
Théorème 2.4
Soitξun e.a. dans IK0 tel queξ∈VR(α, σ)et la condition (RS) est satisfaite.
Si on choisit
n=N2ζ/(1+2ζ)−ε, m=N1/(1+2ζ)+ε, oùζ= (ρ−α)/αetε >0, alors
√n
1
nSn−α+1α
1 n
n
P
i=1
Mm,i(2) Mm,i(1)
2
− 1nSn2
!1/2 ⇒ N(0,1).
Normalité asymptotique
Théorème 2.5
Soitξun e.a. dans IK0 tel que la condition (RFS) est satisfaite.
Si on choisit
n=N2ζ/(1+2ζ)−ε,m=N1/(1+2ζ)+ε,
oùζ=min(ρ−αα ,1)etε >0, alors∀B ∈ B(S)tel queσ(∂B) =0 on a
√n(ˆσN(B)−σ(B))
1 n
n
P
i=1
(1IB(θm,i))2−
1 n
n
P
i=1
1IB(θm,i)
2!1/2 ⇒ N(0,1).
Normalité asymptotique dans le cas IK = R
dRemarque
Dans le cas où l’échantillon vient d’une loi stable dansRd, le résultat de Fristedt implique ρ=2α. Cela nous permet de choisir n=N2/3−ε, i.e. r =2/3−ε, alors la vitesse de convergence des estimateurs dansL1s’approche de N1/3.
N=100 000, α=1.75 N=100 000, β=0.5
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0.5 1 1.5 2 2.5 3
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
−0.1 0 0.1 0.2 0.3 0.4 0.5 0.6
Figure : Graphes des points(1−r,αˆN)et(1−r,βˆN)estimés de loi S1(1.75,(0.5,1)).
Estimation de la densité de σ
I Supposons queσest absolument continue de densité p. On estimepen utilisant la méthode de noyau suivante
ˆpn(x;θm,1, . . . , θm,n) = C(hn) nhd−1n
n
X
i=1
K
1−xTθm,i
h2n
, x ∈Sd−1,
oùθm,i est défini comme avant,hn>0,C(hn)>0,K(·)est une fonction non-négative définie sur[0,∞)telle que
hd−1n C(hn)=
Z
Sd−1
K
1−xTy h2n
λ(dy).
I La difficulté dans notre cas est que l’échantillonθm,1, . . . , θm,n ne suit pas la loiσ.
I En supposant une condition forte de variation régulière on peut prouver la convergence de la densité deθm,i vers la densité deσ.
Condition pour la convergence de la densité de θ
miI SoitΛα,σ une mesure sur Rd définie parmα×σoùσest une mesure finie surB(Sd−1)etmα((r,∞)) =r−α,r >0.
I La condition forte de variation régulière
Pour la mesureµn=nPξ(bnA),bn=n1/αL(n),A∈ B(Rd\{0}), la convergence en variation a lieu surB(0, ε){, si∀ε >0
µn|B(0,ε){−→var Λα,σ|B(0,ε){, (FVR)
oùB(0, ε)est une boule ouverte de centre 0 et de rayonεdansRd. Remarques
I ξ∈VR(α, σ)⇔µn((r,∞)×B)→Λα,σ((r,∞)×B), n→ ∞,
∀B ∈ B(Sd−1)avecσ(∂B) =0 et∀r>0.
I (FVR)⇒ξ∈VR(α, σ).
Convergence de la densité de θ
miThéorème 2.6
Soitξ1, . . . , ξm des v.a. i.i.d. dansRd suivant la loi F . Si F vérifie la condition (FVR), alors
pm L1
−→p, m→ ∞,
où p est la densité de la mesure spectraleσ, pm est la densité de θm,1.
Conclusion : En ajoutant des conditions classiques pour la méthode de noyau on peut prouver la consistance d’estimateur ˆpn(x;θm,1, . . . , θm,n).
Plan de l’exposé
1
Lois à queue régulière et lois stables dans un cône
Définitions et exemples
Transformations des lois à queue régulière
2
Estimation de l’indice caractéristique et de la mesure spectrale
Algorithme d’estimation Consistance
Normalité asymptotique Estimation de la densité deσ
3
Application : Étude des perturbations planétaires des comètes du nuage de Oort
Analyse exploratoire
Inférence statistique du modèle de loi à queue régulière
4
Conclusion et perspectives
Application en astronomie
I Les perturbations planétaires au cours des "rencontres proches" avec les planètes constituent le mécanisme principal qui influence les trajectoires des comètes.
I L’intégration directe du problème des 6 corps:
Soleil+Jupiter+Saturne+Uranus+Neptune+comète est très coûteuse en temps de calcul.
I Les perturbations planétaires sur les comètes du nuage de Oort sont non corrélées.
I Plan d’étude: analyse exploratoire –> modélisation –> résultats d’estimation –> test d’hypothèse.
Données
Les données sont obtenues par des méthodes d’intégration numériques [RVF02].
Nous considérons l’ensemble des triplets (cosi,q,∆z),
i : l’inclinaison du plan orbital avec un plan de référence, q: la distance du périhélie au soleil,
a: le demi-grand axe,
z =1/a : l’inverse de demi-grand axe,
∆z =zf −zi : la marque de perturbation.
Ellipse du mouvement képlérien
Données
I Le manque de stationnarité des marques des perturbations impose la partition de l’espace des positions.
I Les cellules ont toutes le même volume de 0.1×0.1 UA, chacune contient environs 1500 données de perturbations.
I Nous supposons que les marques de perturbations à l’intérieur d’une cellule sont des variables aléatoires i.i.d..
Analyse exploratoire : quantiles empiriques
I Statistique d’ordre : quantiles empiriques
I Quantiles empiriques centraux : non informatifs
I Quantiles empiriques extrêmes : phénomènes intéressants
I Indicateur de la queue lourde : ˆzq−ˆnq
ˆ
zq : q-quantile empirique, ˆ
nq : q-quantile correspondant de loi normale d’espérance et écart-type estimés sur les données.
I Indicateur de symétrie : ˆzq− |ˆz1−q|
a)
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0 0
1 2 3 4 5 6 7
−0.00054 0.00068 0.0019 0.0031 0.0044
b)
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0 8
9 10 11 12 13 14 15
4.2e−07 0.00029 0.00058 0.00087 0.0012
c)
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0 15
16 17 18 19 20 21 22 23 24 25
−4.1e−07 1.7e−05 3.4e−05 5.2e−05 6.9e−05
d)
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0 24
25 26 27 28 29 30 31 32
1.2e−06 1.6e−05 3e−05 4.4e−05 5.8e−05
Figure : Différences des quantiles empiriqueszˆ0.99−ˆn0.99pour les perturbations autour de grande planète : a) Jupiter,aJ =5.2 UA, b) Saturne,aS =9.6 UA, c) Uranus, aU=19.2 UA, d) Neptune,aN =30.1 UA.
a)
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0 0
1 2 3 4 5 6 7 8
−0.0025 −0.0015 −0.00053 0.00043 0.0014
b)
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0 0
1 2 3 4 5 6 7 8
1.6e−200 0.25 0.5 0.75 0.99
Figure : a) Différences des quantiles empiriques ˆz0.99− |ˆz0.01| pour les perturbations autour de Jupiter.
b) Lesp-valeurs obtenues pour le test de normalité des quantiles empiriques ˆz0.95autour de l’orbite de Jupiter.
Forme analytique de perturbations
Théorie Öpik : problème de trois corps (Soleil+planète+comète) –> résultats analytiques
4.7 4.8 4.9 5 5.1 5.2
-1 -0.5 0 0.5 1
q (UA)
cos (i)
0.05 0.03 0.04
Figure : Courbes de niveau de la distribution des perturbations autour de Jupiter.
Analyse exploratoire : conclusions préliminaires
I Existence d’une structure spatiale
I Comportement de type queue lourde autour des orbites des grandes planètes
I Symétrie : à prendre en compte
I Normalité : rejetée autour des orbites des grandes planètes
I Les lois à queue régulière s’adaptent à cette situation.
a)
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0 0
1 2 3 4 5 6 7 8
0.98 2.2 3.3 4.5 5.7
b)
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0 8
9 10 11 12 13 14 15
1.1 2.7 4.3 5.9 7.5
c)
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0 15
16 17 18 19 20 21 22 23 24 25
1.1 2.7 4.3 5.9 7.5
d)
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0 25
26 27 28 29 30 31 32
0.85 1.8 2.7 3.7 4.6
Figure : Résultats d’estimation de l’indice de queueαsur les marques des perturbations autour des grandes planètes: a) Jupiter, b) Saturne, c) Uranus et d) Neptune.
a) 0−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1
1 2 3 4 5 6 7 8
−0.4
−0.3
−0.2
−0.1 0 0.1 0.2 0.3 0.4 0.5
b)0−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1
1 2 3 4 5 6 7 8
1 2 3 4 5 6 7 8 9 x 10−5
Figure : Résultats d’estimation de l’indice de symétrieβ (a) et de paramètre d’échelle γ(b) sur les marques des perturbations autour de Jupiter.
Résultats du test χ
2a)−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1
8
7
6
5
4
3
2
1
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
b)−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1
8
7
6
5
4
3
2
1
0 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Figure : Lesp-valeurs du test statistique deχ2pour les perturbations autour de Jupiter :
a)α <2,H0: les données sont issues d’une loi stable de paramètres estimés, b)α >2,H0 : les données sont issues d’une loi alternative de densité
f(z) = Cκ,α
1+κ|z −ω|α+1, oùCκ,α est une constante de normalisation,
κest le paramètre d’échelle, ω est le paramètre de position.
Plan de l’exposé
1
Lois à queue régulière et lois stables dans un cône
Définitions et exemples
Transformations des lois à queue régulière
2
Estimation de l’indice caractéristique et de la mesure spectrale
Algorithme d’estimation Consistance
Normalité asymptotique Estimation de la densité deσ
3
Application : Étude des perturbations planétaires des comètes du nuage de Oort
Analyse exploratoire
Inférence statistique du modèle de loi à queue régulière
4
Conclusion et perspectives
Conclusion
I Généralisation aux lois à queue régulière dans un cône abstrait
I Vitesse de convergence des estimateurs optimisée
I Résultats d’estimation comparables avec d’autres méthodes
I Modélisation des données réelles
Perspectives
I Problème d’estimation pour les processusα-stables
I Estimation de la densité de mesure spectrale d’une loi stable
I Amélioration de la méthode d’estimation proposée
I Trouver la loi qui ajuste au mieux un jeu de données.
I Quelle alternative pour la loi à queue régulière avecα >2
I Choix de modèle
I Multidimensionnelle