Facult´e des Sciences D´epartement de Math´ematique Service de Statistique Math´ematique
Optimal Tests for Symmetry
Th`ese pr´esent´ee en vue de l’obtention du grade de Docteur en Sciences, orientation statistique.
Promoteurs: Marc Hallin et Davy Paindaveine
Ann´ ee acad´ emique 2006-2007 Delphine CASSART
Ce travail a ´et´e effectu´e sous la direction de Monsieur le Professeur Marc Hallin et de Monsieur le Professeur Davy Paindaveine. Je les remercie pour leur aide et leurs nombreux conseils, pour tout le temps qu’ils ont pass´e `a lire mes manuscrits, et pour l’int´erˆet et le soutient qu’ils m’ont port´es durant ces quatre ann´ees. Je tiens ´egalement `a exprimer ma gratitude aux membres du jury.
Je voudrais remercier Catherine Dehon pour sa patiente et son ´ecoute, ainsi que pour tous les moments agr´eables que nous avons pass´es en travaillant ensemble, et Catherine Vermandele qui a ´et´e le t´emoin des instants de joie ou de frustration qui ont rythm´es ces ann´ees de recherche.
Je remercie mes coll`egues, et en particulier N´ezar pour son amiti´e, et Thomas pour son aide ces derniers mois.
Je voudrais remercier mes parents pour leur patience ces 28 derni`eres ann´ees, et mes amis
pour leur pr´esence et leur soutien.
Contents
Introduction 5
1 Les classes de mod`eles d’asym´etrie . . . . 5
1.1 Probl´ematique: qu’est-ce que la sym´etrie, qu’est-ce que l’asym´etrie? . . . . . 5
1.2 Les mod`eles d’asym´etrie univari´es . . . . 6
1.3 La sym´etrie elliptique . . . . 8
1.4 Le mod`ele d’asym´etrie multivari´e . . . . 8
2. La th´eorie de H´ajek et Le Cam . . . . 9
2.1 Normalit´e locale asymptotique - Convergence des exp´eriences statistiques et optimalit´e . . . . 9
2.2 Proc´edures localement et asymptotiquement optimales . . . . 12
3. La notion d’invariance et les statistiques de rangs sign´es . . . . 12
3.1 Invariance et efficacit´e semi-param´etrique . . . . 13
3.2 Les rangs sign´es univari´es . . . . 13
3.3 Les rangs sign´es multivari´es . . . . 13
4 Contenu de ce travail, chapitre par chapitre . . . . 14
4.1 Les tests classiques de sym´etrie . . . . 14
4.2 Chapitre 1 . . . . 15
4.3 Chapitre 2 . . . . 18
4.4 Chapitre 3 . . . . 20
5 Comparaison des proc´edures univari´ees . . . . 22
1 A Class of Optimal Tests for Symmetry Based on Edgeworth Approximations 24 1.1 Introduction. . . . 24
1.1.1 Testing for symmetry. . . . 24
1.1.2 Outline of the paper. . . . 26
1.2 A class of locally asymptotically normal families of asymmetric distributions. . . 27
1.2.1 Families of asymmetric densities based on Edgeworth approximations. . . 27
1.2.2 Uniform local asymptotic normality (ULAN). . . . 30
1.3 Optimal parametric tests . . . . 31
1.3.1 Optimal parametric tests: specified density. . . . 31
1.3.2 Optimal parametric tests: unspecified density. . . . 32
1.3.3 Pseudo-Gaussian tests. . . . . 37
1.4 Rank-based tests for symmetry. . . . 38
1.4.1 Signed-rank versions of the central sequence. . . . 38
1.4.2 Optimal signed-rank tests of symmetry: specified location. . . . 39
1.4.3 Optimal signed-rank tests of symmetry: unspecified location. . . . 40
1.4.5 Estimation of cross-information quantities. . . . 42
1.5 Asymptotic relative efficiencies and finite-sample performance. . . . 44
1.5.1 Asymptotic relative efficiencies. . . . 44
1.5.2 Simulation results. . . . 45
1.6 Appendix. . . . 48
1.6.1 Proof of Proposition 1.2.1. . . . 48
1.6.2 Asymptotic linearity. . . . . 50
1.7 Bibliography . . . . 55
2 Optimal Detection of Fechner-Asymmetry 58 2.1 Introduction. . . . 58
2.1.1 Testing for symmetry. . . . 58
2.1.2 Outline of the paper. . . . 60
2.2 Fechner families of skewed densities. . . . 61
2.3 Uniform local asymptotic normality (ULAN) and parametrically optimal tests. . 63
2.3.1 ULAN. . . . 63
2.3.2 Optimal parametric tests: specified density, specified location. . . . 64
2.3.3 Optimal parametric tests: specified density, unspecified location. . . . 65
2.3.4 Optimal parametric tests: unspecified density, specified location. . . . 66
2.3.5 Optimal parametric tests: unspecified density, unspecified location. . . . . 67
2.3.6 Pseudo-Gaussian tests. . . . . 69
2.4 Rank-based tests for symmetry. . . . 71
2.4.1 Signed rank versions of the central sequence. . . . 71
2.4.2 Optimal signed rank tests of symmetry: specified location. . . . 72
2.4.3 Optimal signed rank tests of symmetry: unspecified location. . . . 72
2.4.4 Wilcoxon, sign, and normal score tests of symmetry. . . . 74
2.4.5 Estimation of cross-information quantities. . . . 75
2.4.6 Asymptotic relative efficiencies. . . . 77
2.4.7 Simulation results. . . . 78
2.5 Appendix. . . . 82
2.5.1 Proof of Proposition 2.3.1. . . . 82
2.5.2 Asymptotic linearity. . . . . 84
2.6 Bibliography . . . . 85
3 A Class of Tests for Elliptical Symmetry 88 3.1 Introduction. . . . 88
3.1.1 Testing for symmetry. . . . 88
3.1.2 Outline of the paper. . . . 90
3.2 A class of multivariate asymmetric distributions based on the model of Arellano- Valle. . . . . 91
3.3 Uniform local asymptotic normality (ULAN) and parametrically optimal tests. . 92
3.3.1 Local asymptotic normality. . . . 92
3.3.2 Optimal parametric tests: specified density, specified location. . . . 94
3.3.3 Optimal parametric tests: specified density, unspecified location. . . . 94
3.3.4 Optimal parametric tests: unspecified density, specified location. . . . 96
3.3.5 Optimal parametric tests: unspecified density, unspecified location. . . . . 98
3.4 Rank-based tests for symmetry. . . 101
3.4.1 Signed-rank versions of the central sequence. . . 101
3.4.2 Optimal signed rank tests of symmetry: specified location. . . 102
3.4.3 Optimal signed rank tests of symmetry: unspecified location. . . 103
3.4.4 Normal-score tests of symmetry. . . 104
3.4.5 Estimation of cross-information quantities. . . 105
3.4.6 Asymptotic relative efficiencies. . . 107
3.4.7 Simulation results. . . 110
3.5 Appendix. . . 110
3.5.1 Proof of Proposition 3.3.1. . . 110
3.5.2 Proof of Proposition 3.4.1. . . 113
3.5.3 Asymptotic linearity. . . . 114
3.6 Bibliography . . . 118
Introduction.
Dans ce travail, nous proposons des proc´edures de test param´etriques et nonparam´etriques localement et asymptotiquement optimales au sens de H´ajek et Le Cam, pour trois mod`eles d’asym´etrie (les deux premiers sont des mod`eles univari´es tandis que le dernier est multi- vari´e). La construction de mod`eles d’asym´etrie est un sujet de recherche qui a connu un grand d´eveloppement ces derni`eres ann´ees, et l’obtention des tests optimaux (pour trois mod`eles diff´erents) est une ´etape essentielle en vue de leur mise en application. Notre approche est fond´ee sur la th´eorie de Le Cam d’une part, pour obtenir les propri´et´es de normalit´e asymptotique, bases de la construction des tests param´etriques optimaux, et la th´eorie de H´ajek d’autre part, qui, via un principe d’invariance, permet d’obtenir les proc´edures nonparam´etriques.
1 Les classes de mod` eles d’asym´ etrie
1.1 Probl´ ematique: qu’est-ce que la sym´ etrie, qu’est-ce que l’asym´ etrie?
La notion de sym´etrie dans un contexte univari´e ne pr´esente aucune ambigu¨ıt´e: la variable al´eatoire X est sym´etrique par rapport `a θ si X − θ =
d− (X − θ), o` u = d´esigne l’´egalit´e en
ddistribution. La notion d’asym´etrie est plus vague. Cette n´egation de la sym´etrie peut en effet prendre des formes diverses. Nous consid´erons dans ce travail deux classes de distributions univari´ees asym´etriques, l’une fond´ee sur un d´eveloppement d’Edgeworth (d´ecrit en page 6), et l’autre construite en utilisant un param`etre d’´echelle diff´erent pour les valeurs positives et n´egatives (le mod`ele de Fechner, d´ecrit en page 7).
La notion de sym´etrie multivari´ee, quant `a elle, n’est pas unique. Nous pouvons penser aux densit´es `a sym´etrie sph´erique ou elliptique, ou `a toute autre forme de sym´etrie plus g´en´erale telle que la sym´etrie centrale (pour laquelle (X X X − θθθ) et − (X X X − θθθ) ont la mˆeme distribution). La sym´etrie elliptique est une forme plus g´en´erale que la sym´etrie sph´erique, et permet de constru- ire des extensions non gaussiennes de la plupart des proc´edures d’analyse multivari´ee classique.
Nous avons d`es lors choisi ce type de mod`eles pour qualifier notre hypoth`ese nulle. De nom-
breux auteurs (voir par exemple Arellano-Valle et al (2005), Azzalini et Capitanio (2003)) ont
r´ecemment propos´e des mod`eles asym´etriques ´emergeant d’une perturbation de la sym´etrie ellip-
tique. Le mod`ele d’asym´etrie ´etudi´e dans le dernier chapitre est une g´en´eralisation multivari´ee
du mod`ele du Chapitre 2.
1.2 Les mod` eles d’asym´ etrie univari´ es
Nous proposons deux classes de mod`eles univari´es. Le premier de ces mod`eles est bas´e sur un d´eveloppement d’Edgeworth, le second est bas´e sur l’argument intuitif qu’une fonction de densit´e pour laquelle on utilise un param`etre d’´echelle diff´erent pour les valeurs positives et n´egatives sera asym´etrique. Dans les deux cas, il s’agit de tester l’hypoth`ese nulle de sym´etrie. Deux types d’hypoth`eses sont `a examiner:
(a) l’hypoth`ese H
(n)θde sym´etrie par rapport `a un param`etre de position fix´e θ ∈ R : sous H
(n)θ, les observations X
iont une fonction de densit´e x 7→ f (x) :=
σ1f
1(
x−σθ) (toutes les densit´es consid´er´ees dans ce travail sont absolument continues par rapport `a la mesure de Lebesgue), o` u σ ∈ R
+0
est un param`etre d’´echelle non sp´ecifi´e, et f
1appartient `a la classe des densit´es sym´etriques et standardis´ees
F
0:= n f
1: f
1( − z) = f
1(z) et Z
1−∞
f
1(z) dz = 0.75 o
(nous ´evitons donc les conditions d’existence de moments classiques en d´efinissant le param`etre d’´echelle σ par la m´ediane des valeurs absolues | X
i− θ | plutˆ ot que comme l’´ecart-type);
(b) l’hypoth`ese H
(n):= S
θ∈RH
(n)θde sym´etrie par rapport `a un param`etre de position non sp´ecifi´e.
La famille d’Edgeworth
Dans le premier chapitre, nous consid´erons la classe de mod`eles construits de la mani`ere suivante.
Soit une fonction de densit´e standardis´ee f
1qui soit (i) sym´etrique par rapport `a l’origine, (ii) non nulle sur R et absolument continue (on pose φ
f1:= − f ˙
1/f
1), (iii) fortement unimodale, (iv) dont les coefficients d’information
I (f
1) :=
Z
+∞−∞
φ
2f1(z)f
1(z)dz et J (f
1) :=
Z
+∞−∞
z
2φ
2f1(z)f
1(z)dz correspondant `a la position et `a l’´echelle, ainsi que
K (f
1) :=
Z
+∞−∞
z
4φ
2f1(z)f
1(z)dz
correspondant `a l’asym´etrie, soient finis, et (v) telle qu’il existe β > 0 tel que Z
∞a
f
1(z) dz = O( | a |
−β) et φ
f1(z) = o( | z |
β/2−2) quand z → ∞ (cette derni`ere condition est purement technique). La distribution de probabilit´e du n-uple X X X
(n):= (X
1(n), . . . , X
n(n)), n ∈ N o` u les X
isont i.i.d. est caract´eris´ee par la fonction de densit´e
f (x) = 1 σ f
1µ x − θ σ
¶
− ξ 1 σ f ˙
1µ x − θ σ
¶ õ x − θ σ
¶
2− κ(f
1)
!
I [ | x − θ | ≤ σ | z
∗| ] (1) +sign(ξ) 1
σ f
1µ x − θ σ
¶
{ I [x − θ > sign( − ξ)σz
∗] − I [x − θ < sign(ξ)σz
∗] } ,
−4 −3 −2 −1 0 1 2 3 4 0
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
−4 −3 −2 −1 0 1 2 3 4
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
−4 −3 −2 −1 0 1 2 3 4
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
−4 −3 −2 −1 0 1 2 3 4
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
Figure 1: Repr´esentation graphique de la famille (1) gaussienne (f
1= φ
1), pour ξ = 0, 0.05, 0.10, et 0.15.
o` u θ et σ sont les param`etres de position et d’´echelle, ξ est une mesure de l’asym´etrie, κ(f
1) :=
J (f
1)/ I (f
1) (qui est positif pour tout f
1d´efini ci-dessus) le coefficient d’aplatissement (kurtosis) g´en´eralis´e, et z
∗est l’unique solution (pour ξ suffisamment petit) de f
1(z
∗) = ξ f ˙
1(z
∗)((z
∗)
2− κ(f
1)). Cette fonction a (comme il se doit) une int´egrale ´egale `a 1, et est non-n´egative. Elle est de plus continue `a condition que ˙ f
1(x) le soit, s’annule pour x ≤ θ + σz
∗si ξ > 0, pour x ≥ θ + σz
∗si ξ < 0, et est asym´etrique `a gauche ou `a droite suivant que ξ < 0 ou ξ > 0. La racine z
∗tend vers −∞ quand ξ ↓ 0, vers ∞ quand ξ ↑ 0.
Dans le cas gaussien (c’est-`a-dire, f
1(z) = φ
1(z) := p a/2π exp( − az
2/2)), avec ξ = n
−1/2τ , (1), donne (pour x ∈ [θ ± σz
∗]) le d´eveloppement d’Edgeworth au premier ordre de la moyenne d’un n-uple de variables i.i.d. de moment d’ordre 3 ´egal `a 6τ σ
3. La Figure 1 donne une repr´e- sentation graphique de (1) dans le cas gaussien.
La famille de Fechner
La classe de mod`eles consid´er´ee dans le deuxi`eme chapitre a ´et´e propos´ee pour la premi`ere fois en 1898 par Fechner. Consid´erons une fonction de densit´e standardis´ee f
1qui soit (i) sym´etrique par rapport `a l’origine, (ii) non nulle sur R et absolument continue, (iii) fortement unimodale, (iv) dont les coefficients d’informations I (f
1), J (f
1) et
M (f
1) :=
Z
+∞−∞
| z | φ
2f1(z)f
1(z)dz
correspondant `a la position, `a l’´echelle et `a l’asym´etrie, soient finis. La distribution de probabilit´e du n-uple X X X
(n):= (X
1(n), . . . , X
n(n)), n ∈ N o` u les X
isont i.i.d. est caract´eris´ee par la fonction de densit´e
f
θ,σ(x) := 1 σ
h f
1³ x − θ (1 + ξ)σ
´ I[x ≤ θ]+f
1³ x − θ (1 − ξ)σ
´ I[x > θ] i = 1 σ f
1µ x − θ σ(1 − ξsign(x − θ))
¶
, x ∈ R (2) o` u θ ∈ R , σ ∈ R
+et ξ ∈ ( − 1, 1) sont comme pr´ec´edemment les param`etres de position, d’´echelle et d’asym´etrie respectivement. Dans ces familles, ξ = 0 correspond `a la sym´etrie, ξ > 0 `a une asym´etrie `a gauche, et ξ < 0 `a une asym´etrie `a droite. Intuitivement, il s’agit ici de choisir un param`etre d’´echelle diff´erent pour les valeurs positives et n´egatives, et de recoller les deux morceaux de la courbe en z´ero.
Une repr´esentation graphique de (2) dans le cas gaussien est donn´ee par la Figure 2.
−4 −3 −2 −1 0 1 2 3 4 0
0.05 0.1 0.15 0.2 0.25 0.3 0.35
−4 −3 −2 −1 0 1 2 3 4
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
−4 −3 −2 −1 0 1 2 3 4
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
Figure 2: Repr´esentation graphique de (2) pour f
1= φ
1, avec ξ = 0, 0.1, et 0.2.
1.3 La sym´ etrie elliptique
Comme ´evoqu´e pr´ec´edemment, la d´efinition de la sym´etrie dans un contexte multivari´e n’est pas unique. La notion de sym´etrie la plus g´en´erale dans ce cadre est la sym´etrie centrale qui requiert que (X X X − θθθ) et − (X X X − θθθ) aient la mˆeme distribution. La famille de distributions d´efinie dans le troisi`eme chapitre contient comme cas particulier sym´etrique la famille traditionnelle `a sym´etrie elliptique, ce qui justifie notre choix. Un vecteur al´eatoire X X X dans R
kest `a sym´etrie elliptique si elle est caract´eris´ee par une fonction de densit´e de la forme
f(x x x) = c
k;f11
| Σ Σ Σ |
1/2f
1µ³ (x x x − θθθ)
′Σ Σ Σ
−1(x x x − θθθ) ´
1/2¶
, x x x ∈ R
k(3) o` u θθθ ∈ R
kest un param`etre de position, Σ Σ Σ = (Σ
ij) ∈ S
k= { M ∈ R
k×k| M est sym´etrique et d´efinie positive } , est une matrice de dispersion et c
k;f1est une constante assurant que l’int´egrale, sur R
k, de f (x x x), soit ´egale `a un. Le param`etre f
1: R
+0→ R
+est une fonction presque partout strictement positive appel´ee densit´e radiale.
1.4 Le mod` ele d’asym´ etrie multivari´ e
Le mod`ele d’asym´etrie que nous consid´erons dans le troisi`eme chapitre de ce travail est une g´en´eralisation multivari´ee du mod`ele (2) du second chapitre. Soit X X X
(n):= (X X X
(n)1, . . . , X X X
(n)n), n ∈ N , un vecteur d’observations i.i.d. dans R
k, et soient d
(n)i= d
i(θθθ, Σ Σ Σ) := k Z Z Z
(n)i(θθθ, Σ Σ Σ) k les modules des observations centr´ees et sph´ericis´ees Z Z Z
(n)i= Z Z Z
(n)i(θθθ, Σ Σ Σ) := Σ Σ Σ
−1/2(X X X
(n)i− θθθ), i = 1, . . . , n. Si les X X X
(n)iont pour densit´e (3), nous pouvons montrer que les d
(n)isont i.i.d., et sont caract´eris´es par les fonctions de densit´e et de r´epartition
r 7−→ f ˜
1k(r) := 1
µ
k−1;f1r
k−1f
1(r)I
[r>0]et r 7−→ F ˜
1k(r) :=
Z
r0
f ˜
1k(s)ds.
Consid´erons une fonction f
1: R
+0→ R
+qui soit (i) strictement positive presque partout, (ii) standardis´ee de telle sorte que les d
(n)iaient une m´ediane unitaire, (iii) absolument continue, (iv) telle que r 7→ φ
f1(r) :=
−ff˙1(r)1(r)
soit strictement croissante et telle que (v) les coefficients I
k(f
1), J
k(f
1) et M
k(f
1) soient finis, o` u
J
k(f
1) :=
Z
∞0
φ
2f1(r)r
2f ˜
1k(r) dr, I
k(f
1) :=
Z
∞0
φ
2f1(r) ˜ f
1k(r) dr et M
k(f
1) :=
Z
∞0
φ
2f1(r)r f ˜
1k(r) dr.
Le mod`ele consid´er´e dans le troisi`eme chapitre est le suivant. Soit le n-uple X X X
(n):=
(X X X
(n)1, . . . , X X X
(n)n), n ∈ N o` u les X X X
isont des vecteurs i.i.d. k-vari´es; la distribution de proba- bilit´e des X X X
iest caract´eris´ee par la fonction de densit´e
f(x x x) = 1
| Σ Σ Σ |
1/2f
1µ³ (x x x − θθθ)
′Σ Σ Σ
−1/2B B B
ΣΣ−Σ2−1/2(xxx−θθθ)
Σ Σ Σ
−1/2(x x x − θθθ) ´
1/2¶
, x x x ∈ R
k(4) o` u θθθ ∈ R
kest un param`etre de position, Σ Σ Σ ∈ S
k, est une matrice de dispersion, de racine carr´ee Σ
Σ
Σ
1/2, la matrice B B B
ZZZest diagonale avec B B B
ZZZ,jj:= (1 − sign(Z
j)ξ
j) o` u ξξξ = (ξ
1, . . . , ξ
k)
′∈ ( − 1, 1)
kest le param`etre d’asym´etrie. La fonction f
1: R
+0→ R
+est presque partout strictement positive.
Par la suite, nous l’appellerons densit´e radiale.
Dans ce contexte, les hypoth`eses nulles que nous testons sont
– l’hypoth`ese H
θθθ(n)de sym´etrie elliptique par rapport au centre de sym´etrie θθθ ∈ R
kfix´e:
pour un matrice sym´etrique et d´efinie positive Σ Σ Σ ∈ R
k×k(non sp´ecifi´ee), les X X X
iont pour fonction de densit´e (3), o` u f
1fait partie de la classe des densit´es radiales standardis´ees
G
0:= n f
1: R
+0
→ R
+, fonction p.p. strictement positive, telle que ˜ F
1k(1) = 1/2 o ;
– l’hypoth`ese H
(n):= S
θθθ∈RkH
θθθ(n)de sym´etrie elliptique par rapport `a un centre non sp´ecifi´e.
2 La th´ eorie de H´ ajek et Le Cam
Nous montrons dans ce travail que les mod`eles d´ecrits dans la section pr´ec´edente jouissent de la propri´et´e de normalit´e locale asymptotique (LAN). Ceci nous permet par la suite de construire des proc´edures de test optimales (localement et asymptotiquement).
2.1 Normalit´ e locale asymptotique - Convergence des exp´ eriences statistiques et optimalit´ e
Nous ´etablissons, pour chacun des mod`eles pr´esent´es, une propri´et´e de normalit´e locale asymp- totique uniforme par rapport `a ϑ ϑ ϑ = (θ, σ, ξ)
′(ϑ ϑ ϑ := (θθθ
′, (vechΣ Σ Σ)
′, ξξξ
′)
′, dans le cas du mod`ele multivari´e) en (θ, σ, 0)
′((θθθ
′, (vechΣ Σ Σ)
′, 000
′)
′respectivement). Nous pr´esentons dans la suite de cette sous-section, ainsi que la suivante, les r´esultats dans le cadre le plus g´en´eral, multivari´e.
Pour tout ϑ ϑ ϑ
(n):= (θθθ
(n), vech(Σ Σ Σ
(n)), 000)
′tel que θθθ
(n)− θθθ = O(n
−1/2) et Σ Σ Σ
(n)− Σ Σ Σ = O(n
−1/2), et pour toute s´equence born´ee τττ
(n)= (ttt
(n), sss
(n), rrr
(n))
′∈ R
2k+k(k+1)/2, on a, sous P
(n)ϑϑϑ(n);f1
, quand n → ∞ ,
Λ
(n)ϑϑϑ(n)+n−1/2τττ(n)/ϑϑϑ(n);f1
:= log
dP
(n)ϑϑϑ(n)+n−1/2τττ(n);f1
dP
ϑ(n)ϑϑ(n);f1
= τττ
(n)′∆ ∆ ∆
(n)f1(ϑ ϑ ϑ
(n)) − 1
2 τττ
(n)′Γ Γ Γ
f1(ϑ ϑ ϑ)τττ
(n)+ o
P(1) (5)
et la suite centrale ∆ ∆ ∆
(n)f1
(ϑ ϑ ϑ
(n)) = ((∆ ∆ ∆
(n)f1;1
(ϑ ϑ ϑ
(n)))
′, (∆ ∆ ∆
(n)f1;2
(ϑ ϑ ϑ
(n)))
′, (∆ ∆ ∆
(n)f1;3
(ϑ ϑ ϑ
(n)))
′)
′est asymptotique- ment normale de moyenne nulle et de matrice de variance-covariance Γ Γ Γ
f1(ϑ ϑ ϑ). Cette matrice prendra, dans le contexte de ce travail, la forme g´en´erale
Γ Γ
Γ
f1(ϑ ϑ ϑ) =
Γ Γ
Γ
f1;11(ϑ ϑ ϑ) 000 Γ Γ Γ
f1;13(ϑ ϑ ϑ) 000 Γ Γ Γ
f1;22(ϑ ϑ ϑ) 000 Γ
Γ
Γ
′f1;13(ϑ ϑ ϑ) 000 Γ Γ Γ
f1;33(ϑ ϑ ϑ)
(6)
Pour interpr´eter ce r´esultat, consid´erons le mod`ele de position gaussien n N ³ Γ Γ Γ
f1(ϑ ϑ ϑ)τττ , Γ Γ Γ
f1(ϑ ϑ ϑ) ´ | τττ ∈ R
2k+k(k+1)/2o
`a une seule observation que nous notons ∆ ∆ ∆. Il est facile de v´erifier que le logarithme du rapport de vraisemblance associ´e `a la loi gaussienne N ³ Γ Γ Γ
f1(ϑ ϑ ϑ)τττ , Γ Γ Γ
f1(ϑ ϑ ϑ) ´ par rapport `a N ³ 000,Γ Γ Γ
f1(ϑ ϑ ϑ) ´ est donn´e par
τττ
′∆ ∆ ∆ − 1
2 τττ
′Γ Γ Γ
f1(ϑ ϑ ϑ)τττ
ce qui signifie (voir le second membre de (5)) que le logarithme du rapport de vraisemblance “lo- cal” en ϑ ϑ ϑ est asymptotiquement ´equivalent au logarithme du rapport de vraisemblance dans un mod`ele de position gaussien classique. Comme nous l’expliquons ci-dessous, ceci a d’importantes implications sur la construction de proc´edures localement et asymptotiquement optimales pour la suite d’exp´eriences en question.
La normalit´e locale asymptotique entraˆıne, pour tout ϑ ϑ ϑ, la convergence faible de la suite d’exp´eriences locales (localis´ees en ϑ ϑ ϑ)
E
(n):= n R
nk, B
nk, n P
(n)ϑϑϑ+n−1/2τττ;f1
| τττ ∈ R
2k+k(k+1)/2oo vers le mod`ele de position gaussien
E := n R
(2k+k(k+1)/2), B
(2k+k(k+1)/2), n N ³ Γ Γ Γ
f1(ϑ ϑ ϑ)τττ , Γ Γ Γ
f1(ϑ ϑ ϑ) ´ | τττ ∈ R
2k+k(k+1)/2oo
;
nous noterons ∆ ∆ ∆ := ∆ ∆ ∆
f1= (∆ ∆ ∆
′1, ∆ ∆ ∆
′2, ∆ ∆ ∆
′3)
′l’unique observation associ´ee `a ce mod`ele limite. Ce concept de convergence est bas´e sur une pseudo-distance (dite distance de Le Cam) entre les ensembles des fonctions de risque (de R
(2k+k(k+1)/2)dans R
+) r´ealisables sous les exp´eriences consid´er´ees, pour les fonctions de perte born´ees. Dans ce contexte d’hypoth`ese de test, ceci signifie en quelque sorte que, lorque n → ∞ , toutes les courbes de puissance r´ealisables pour l’exp´erience E
(n)convergent – ponctuellement en τττ, mais uniform´ement en l’ensemble des toutes les proc´edures de test possibles – vers les courbes de puissance associ´ees au mod`ele limite gaussien E . A l’inverse, pour toute fonction de risque R r´ealisable dans le mod`ele E , il ex- iste une suite de fonctions de risque associ´ees `a E
(n)qui converge ponctuellement vers cette fonction de risque R.
Il suffit donc de connaˆıtre les tests qui sont optimaux dans le mod`ele limite, pour les (versions locales des) probl`emes de test (
H
0: ξξξ = 000
H
1: ξξξ 6 = 000. (7)
Deux cas sont envisag´es par la suite: le param`etre θθθ sera dans un premier temps fix´e dans H
0,
puis restera non sp´ecifi´e. La construction du test optimal devra dans ce cas tenir compte de la
corr´elation dans E entre ∆ ∆ ∆
1et ∆ ∆ ∆
3.
Les mod` eles univari´ es
Dans le contexte de test de sym´etrie univari´ee, notons τ
3la partie correspondant au param`etre d’asym´etrie ξ dans la perturbation. Consid´erons le probl`eme de test unilat´eral
( H
0: ξ = 0
H
1: ξ > 0. (8)
La forme locale de l’hypoth`ese nulle dans le mod`ele limite est donn´ee par µ = Γ
f1;33(ϑ ϑ ϑ)τ
3= 0 ou simplement τ
3= 0. Consid´erons le probl`eme de test
( H
0: τ = 0 H
1: τ > 0.
Dans ce contexte, le test optimal dans le mod`ele limite est donn´e par
Γ
f1;33(ϑ ϑ ϑ)
−1/2∆
3> z
1−α(9) o` u z
1−αest le quantile d’ordre 1 − α associ´e `a la loi normale standard.
Si θ est non sp´ecifi´e sous l’hypoth`ese nulle et que la covariance Γ
f1;31(ϑ ϑ ϑ) entre ∆
3et ∆
1(correspondant au param`etre de position) est non nulle, il faudra tenir compte du fait qu’une perturbation locale de la position a le mˆeme impact asymptotique sur ∆
3qu’une perturbation locale de ξ. Ceci implique que le test optimal (le plus stringent) sera construit `a partir du r´esidu de la r´egression de ∆
3par rapport `a ∆
1. Ce r´esidu prend la forme ∆
3− (Γ
f1,11(ϑ ϑ ϑ))
−1Γ
f1,13(ϑ ϑ ϑ)∆
1; le test le plus stringent est alors le test φ
∗rejetant l’hypoth`ese nulle si
(∆
3− (Γ
f1,11(ϑ ϑ ϑ))
−1Γ
f1,13(ϑ ϑ ϑ)∆
1)/(Γ
f1,33(ϑ ϑ ϑ) − (Γ
f1,11(ϑ ϑ ϑ))
−1Γ
2f1,13(ϑ ϑ ϑ))
1/2> z
1−α. (10) D´esignant par C
αla collection des tests de niveau α pour le probl`eme consid´er´e, le test φ
∗construit ci-dessus fait partie de C
α, et
sup
P∈H1
r
φ∗(P) ≤ sup
P∈H1
r
φ(P), ∀ φ ∈ C
αo` u le rejet r
φ0(P) d’un test φ
0en P ∈ H
1, d´efini par r
φ0(P) = h sup
φ∈Cα
E
P[φ] i − E
P[φ
0]
est le d´eficit de puissance de φ
0par rapport `a la puissance la plus ´elev´ee qui peut ˆetre r´ealis´ee en P par les tests de la classe C
α.
Les mod` eles multivari´ es
Notons τττ
3la parties correspondant au param`etre d’asym´etrie dans la perturbation. Dans le mod`ele limite, la forme locale de l’hypoth`ese nulle en (7), si θθθ est fix´e, est µ µ µ := Γ Γ Γ
f1;33(ϑ ϑ ϑ)τττ
3= 000 ∈ R
k, ou, de mani`ere ´equivalente τττ
3= 000. Consid´erons alors le probl`eme de test
( H
0: τττ
3= 000
H
1c: τττ
′3Γ Γ Γ
f1;33(ϑ ϑ ϑ)τττ
3> c, c > 0 (11)
o` u τττ
′3Γ Γ Γ
f1;33(ϑ ϑ ϑ)τττ
3= µ µ µ
′(Γ Γ Γ
f1;33(ϑ ϑ ϑ))
−1µ µ µ (sous H
1c, µ µ µ est en dehors de l’ellipso¨ıde de forme Γ Γ Γ
f1;33(ϑ ϑ ϑ) et de “rayon” √
c). On peut montrer dans ce contexte que le test φ
∗rejetant H
0d`es que
∆
∆ ∆
′3(Γ Γ Γ
f1;33(ϑ ϑ ϑ))
−1∆ ∆ ∆
3> χ
2k;1−α, (12) o` u χ
2k;1−αd´esigne le quantile d’ordre 1 − α associ´e `a la distribution chi-deux `a k degr´es de libert´e, est maximin pour le probl`eme (11), dans la classe des tests de niveau α. Ceci signifie que φ
∗est de niveau α, et que sa puissance satisfait
E
P[φ
∗] ≥ sup
φ:EHO[φ]≤α
P
inf
∈H1cE
P[φ], ∀ P ∈ H
1c.
Il est `a noter que la statistique de test en (12) ne d´epend pas de c, malgr´e le rˆ ole jou´e par c dans la d´efinition de la contre-hypoth`ese consid´er´ee.
Si θθθ n’est pas sp´ecifi´e, et que la covariance entre ∆ ∆ ∆
3et ∆ ∆ ∆
1est non nulle, le test optimal (le plus stringent) devra ˆetre construit `a partir du r´esidu de la r´egression de ∆ ∆ ∆
3par rapport `a ∆ ∆ ∆
1. Ce r´esidu prend la forme
∆ ∆
∆
∗= ∆ ∆ ∆
3− Γ Γ Γ
′f1,13(ϑ ϑ ϑ)Γ Γ Γ
−f11,11(ϑ ϑ ϑ)∆ ∆ ∆
1.
Le test le plus stringent est alors le test φ
∗qui rejette l’hypoth`ese nulle quand
∆ ∆ ∆
∗′(Γ Γ Γ
∗f1(ϑ ϑ ϑ))
−1∆ ∆ ∆
∗> χ
2k;1−α, (13) o` u Γ Γ Γ
∗f1(ϑ ϑ ϑ) = Γ Γ Γ
f1;33(ϑ ϑ ϑ) − (Γ Γ Γ
f1;11(ϑ ϑ ϑ))
−1Γ Γ Γ
f1;13(ϑ ϑ ϑ).
2.2 Proc´ edures localement et asymptotiquement optimales
Il d´ecoule des deux sous-sections pr´ec´edentes que la construction de proc´edures localement et asymptotiquement optimales pour les probl`emes (7) et (8) peut ˆetre effectu´ee en rempla¸cant l’observation gaussienne ∆ ∆ ∆, dans (9), (10), (12) et (13), par la suite centrale ∆ ∆ ∆
(n)f1(ϑ ϑ ϑ
(n)) associ´ee
`a la d´ecomposition LAN (5). Cette construction est enti`erement bas´ee sur la propri´et´e de normalit´e locale asymptotique pour les diff´erents mod`eles consid´er´es.
Les proc´edures d´ecrites ci-dessus n´ecessitent la connaissance de f
1. Ces proc´edures sont donc hautement param´etriques. Or, ce param`etre est g´en´eralement inconnu, et doit donc ˆetre consid´er´e comme un param`etre de nuisance. Afin d’´eliminer cette nuisance, nous utilisons un principe d’invariance, et c’est dans ce cadre qu’apparaissent des outils tels que rangs et signes.
Nous passons en revue, dans la section suivante, les propri´et´es d’invariance des probl`emes de test consid´er´es.
3 La notion d’invariance et les statistiques de rangs sign´ es
Dans cette section, nous d´ecrivons les proc´edures de rangs sign´es, et nous expliquons comment
les rangs sign´es sont g´en´eralis´es au cas d’un mod`ele multivari´e.
3.1 Invariance et efficacit´ e semi-param´ etrique
Les proc´edures non param´etriques (ou semi-param´etriques) permettent de faire l’´economie d’une sp´ecification – souvent artificielle et discutable – de la densit´e f
1sous-jacente au mod`ele con- sid´er´e. Cette sp´ecification qui, par opposition, engendre les proc´edures param´etriques, trouve en effet plus souvent son origine dans un besoin de commodit´e analytique que dans un r´eel souci de mod´elisation. Les proc´edures non param´etriques sont ainsi valides quelles que soit la densit´e f
1standardis´ee et sym´etrique. De plus, ces proc´edures ont de bonnes propri´et´es d’efficacit´e sous une large gamme de distributions, tout en c´edant tr`es peu (et mˆeme parfois rien) aux proc´edures param´etriques sous la densit´e auxquelles ces derni`eres sont adapt´ees.
Supposons l’existence d’un invariant maximal (dans la suite, il s’agira des rangs sign´es, uni- vari´es ou multivari´es), pour le groupe g´en´erant l’hypoth`ese nulle de sym´etrie par rapport `a un centre sp´ecifi´e. Hallin et Werker (2003) montrent que la suite centrale semi-param´etriquement efficace est obtenue en r´eduisant l’information disponible dans l’exp´erience de d´epart en condi- tionnant par rapport `a l’invariant maximal. L’inf´erence semi-param´etrique peut donc ˆetre fond´ee sur cette suite centrale. Dans ce contexte, o` u l’hypoth`ese nulle correspond `a une hypoth`ese de sym´etrie, les proc´edures semi-param´etriques optimales sont construites `a partir de rangs sign´es d´efinis ci-dessous.
3.2 Les rangs sign´ es univari´ es
L’hypoth`ese nulle H
(n)θde sym´etrie par rapport `a θ est engendr´ee par le groupe G
θ(n),
◦de toutes les transformations
Ghde R
ntelles que
Gh(x
1, . . . , x
n) := (h(x
1), . . . , h(x
n)), o` u lim
x→±∞h(x) =
±∞ , et x 7→ h(x) est continue, monotone croissante et impaire par rapport ` a θ (c’est-`a-dire h(θ − z) = − h(θ + z)). Dans ce type de situation, le principe d’invariance pr´econise le recours exclusif `a des proc´edures qui ne varient pas le long des orbites du groupe G
θ(n),
◦, ce qui est le cas si et seulement si ces proc´edures sont mesurables en l’invariant maximal associ´e `a G
θ(n),
◦. Un invariant maximal pour ce groupe est le vecteur des signes (s
1(θ), . . . , s
n(θ)), avec le vecteur des rangs (R
(n)+,1(θ), . . . , R
(n)+,n(θ)), o` u s
i(θ) est le signe de X
i− θ et R
(n)+,i(θ) le rang de | X
i− θ | parmi
| X
1− θ | , . . . , | X
n− θ | .
L’adh´esion au principe d’invariance s’accompagne du corollaire suivant: les proc´edures in- variantes, pour peu que le groupe de transformations soit g´en´erateur pour le mod`ele consid´er´e, sont libres. Il est donc ais´e de construire des tests dont la dimension sous l’hypoth`ese nulle est uniform´ement ´egale au niveau nominal, quelle que soit la densit´e sym´etrique sous-jacente.
3.3 Les rangs sign´ es multivari´ es
Nous d´ecrivons ici les propri´et´es d’invariance du probl`eme de test (7). L’hypoth`ese de sym´etrie elliptique jouit ´egalement de propri´et´es d’invariance dont nous pourrons tirer profit afin de construire les proc´edures non param´etriques optimales. L’hypoth`ese H
θθθ(n)de sym´etrie elliptique par rapport `a θθθ est engendr´ee par le groupe G
θθθ(n),
◦de toutes les transformations
Ghde R
nk= R
k× . . . × R
ktelles que
Gh
(X X X
1, . . . , X X X
n) := (θθθ + h(d
1(θθθ, Σ Σ Σ))Σ Σ Σ
1/2U U U
1(θθθ, Σ Σ Σ), . . . , θθθ + h(d
n(θθθ, Σ Σ Σ))Σ Σ Σ
1/2U U U
n(θθθ, Σ Σ Σ)),
o` u lim
r→∞h(r) = ∞ , h(0) = 0 and x 7→ h(x) est continue et monotone croissante.
Un invariant maximal pour ce groupe est le vecteur des signes multivari´es (U U U
1(θθθ, Σ Σ Σ), . . . , U U U
n(θθθ, Σ Σ Σ)), avec le vecteur des rangs (R
(n)1(θθθ, Σ Σ Σ), . . . , R
(n)n(θθθ, Σ Σ Σ)), o` u R
(n)i(θθθ, Σ Σ Σ) est le rang de d
i(θθθ, Σ Σ Σ) :=
|| Σ Σ Σ b
−1/2(X X X
i− θθθ) || parmi d
1(θθθ, Σ Σ Σ), . . . , d
n(θθθ, Σ Σ Σ) et U U U
i:= Σ Σ Σ b
−1/2(X X X
i− θθθ)/d
i.
Les proc´edures semi-param´etriques optimales dans le contexte multivari´e seront donc elles aussi construites `a partir de rangs sign´es tels que d´efinis ci-dessus.
4 Contenu de ce travail, chapitre par chapitre
Chacun des trois chapitres de ce travail est structur´e de la fa¸con suivante.
Apr`es avoir d´ecrit le mod`ele pour lequel nous construisons les proc´edures optimales pour tester l’hypoth`ese de sym´etrie, nous obtenons la propri´et´e de normalit´e locale asymptotique.
Cette propri´et´e est ´etablie `a l’aide du Lemme de Swensen (1985). Les conditions de ce lemme sont ais´ement v´erifi´ees, pour autant que la racine carr´ee de la fonction de densit´e caract´erisant le mod`ele soit diff´erentiable en moyenne quadratique. Cette derni`ere condition est donc le point crucial `a v´erifier.
A partir de ce r´esultat, nous sommes capables de construire les tests param´etriques locale- ment et asymptotiquement optimaux. Ces tests ne sont toutefois valides que si f
1est correcte- ment sp´ecifi´ee, et sont donc difficilement applicables en pratique.
Nous adaptons donc ces tests afin de pouvoir tester H
θ(n):= S
g1H
(n)θ;g1et H
(n):= S
g1H
(n)g1, qui sont des hypoth`eses plus r´ealistes. Les tests que nous obtenons restent de plus localement et asymptotiquement optimaux sous f
1. Dans cette introduction, nous pr´esentons les cas parti- culiers des tests pseudo-gaussiens correspondant `a chacun des mod`eles. Ces tests sont optimaux sous des hypoth`eses gaussiennes (par hypoth`ese gaussienne, nous entendons f
1= φ
1dans (1), (2) ou (4) selon le cas), mais restent valides (ils n´ecessitent toutefois une condition sur les moments de la densit´e sous-jacente) si l’hypoth`ese de normalit´e n’est pas satisfaite.
A partir des propri´et´es d’invariance expliqu´ees plus haut (voir Section 3), nous obtenons ensuite les tests de rangs sign´es localement et asymptotiquement optimaux sous f
1, et valides sous une vaste classe de densit´es. Nous pr´esentons en particulier, dans cette introduction, les tests fond´es sur les scores normaux (ou tests de van der Waerden), qui sont optimaux sous des hypoth`eses gaussiennes, tout en ´etant valides (sans condition de moments) sous une loi elliptique arbitraire.
Afin de comparer les performances des tests param´etriques et non param´etriques pr´esent´es, nous calculons les efficacit´es asymptotiques relatives des tests non param´etriques par rapport aux tests pseudo-gaussiens, sous une vaste classe de densit´es non-gaussiennes, et nous proposons quelques simulations.
4.1 Les tests classiques de sym´ etrie
Les tests de sym´etrie “classiques” font naturellement intervenir les moments d’ordre trois. Con- sid´erons m
(n)k(θ) := n
−1P
ni=1(X
i− θ)
ket m
(n)k:= m
(n)k( ¯ X
(n)), o` u ¯ X
(n):= n
−1P
ni=1X
i. Quand le param`etre de position θ est sp´ecifi´e, la statistique de test traditionnelle a la forme
n
1/2m
(n)3(θ)/(m
(n)6(θ))
1/2, (14)
dont la distribution sous l’hypoth`ese nulle de sym´etrie (`a condition toutefois que les moments d’ordre six soient finis) est asymptotiquement une loi normale standard. Quand θ n’est pas sp´ecifi´e, la proc´edure de test classique se base sur le coefficient empirique d’asym´etrie b
(n)1:=
m
(n)3/s
3n, o` u s
n:= (m
(n)2)
1/2est l’´ecart-type empirique d’un ´echantillon de taille n. Plus pr´ecis´emment, ce test est fond´e sur la distribution asymptotique (normale standard) de
b
(n)1= n
1/2m
(n)3/(m
(n)6− 6s
2nm
(n)4+ 9s
6n)
1/2. (15) A nouveau, ce test requiert l’hypoth`ese lourde que les moments d’ordres six soient finis.
Les proc´edures non param´etriques (mais aussi les proc´edures param´etriques en ce qui con- cerne le Chapitre 2) construites dans les deux premiers chapitres de ce travail sont valides sous des hypoth`eses nettement moins contraignantes.
4.2 Chapitre 1
Dans ce chapitre, nous construisons les proc´edures (param´etriques, puis non param´etriques) optimales pour la classe de mod`eles d’Edgeworth (1). Avec les notations d´efinies page 6, ξ, le param`etre d’asym´etrie, est le param`etre d’int´erˆet. Le param`etre θ sera dans un premier temps sp´ecifi´e sous l’hypoth`ese nulle, puis jouera le rˆ ole d’une nuisance, au mˆeme titre que l’´echelle σ.
La construction de tests ne requi´erant pas la sp´ecification de la densit´e standardis´ee sym´etrique f
1est un des points cruciaux de ce chapitre.
Nous montrons tout d’abord que (1) poss`ede la propri´et´e de normalit´e locale asymptotique
`a condition que
(i) f
1∈ F
0, la classe des densit´es sym´etriques standardis´ees d´efinie plus haut;
(ii) il existe ˙ f
1tel que, pour tout z
0∈ R , f
1(z
0) = Z
z0−∞
f ˙
1(z)dz > 0, o` u (iii) z 7→ φ
f1(z) := − f ˙
1(z)/f
1(z) est monotone croissante, et
(iv) K (f
1) soit fini;
(v) il existe β > 0 tel que Z
∞a
f
1(z) dz = O( | a |
−β) et φ
f1(z) = o( | z |
β/2−2) quand z → ∞ . La propri´et´e LAN fait intervenir la suite centrale
∆
∆ ∆
(n)f1
(ϑ ϑ ϑ) :=
∆
(n)f1;1
(ϑ ϑ ϑ)
∆
(n)f1;2
(ϑ ϑ ϑ)
∆
(n)f1;3
(ϑ ϑ ϑ)
:= n
−1/2X
n i=1
1
σ
φ
f1(Z
i)
1
σ
(φ
f1(Z
i)Z
i− 1) φ
f1(Z
i) ¡ Z
i2− κ(f
1) ¢
et la matrice d’information Γ Γ
Γ
f1(ϑ ϑ ϑ) =
σ
−2I (f
1) 0 0
0 σ
−2( J (f
1) − 1) 0
0 0 γ(f
1)
o` u γ(f
1) := K (f
1) −
JI2(f(f11)).
Les tests param´etriques optimaux φ
∗pour tester H
0: ξ = 0 contre H
1: ξ > 0 rejettent l’hypoth`ese nulle quand
T
f(n)1
(θ, b σ
#) := 1 p nγ(f
1)
X
n i=1φ
f1(Z
i(θ, σ b
#)) ³ Z
i2(θ, σ b
#) − κ(f
1) ´ > z
1−α. (16) Si le param`etre de position θ est non sp´ecifi´e sous l’hypoth`ese nulle, il convient de l’estimer dans (16).
Ces tests ne sont toutefois valides que si f
1a ´et´e correctement identifi´ee. Cette hypoth`ese peu r´ealiste doit ˆetre contourn´ee, afin d’obtenir des tests valides sous une grande classes de densit´es, mais toujours optimaux si la densit´e sous-jacente a ´et´e choisie correctement. Nous montrons alors que la statistique du test pseudo-gaussien optimal (valide ` a condition que les moments d’ordre six soient finis et optimal localement et asymptotiquement sous des hypoth`eses gaussiennes) s’´ecrit
T
φ(n)⊙1
(θ) := T
φ(n)⊙1
(θ, σ) = 1 q
nγ
(n)⊙(φ
1) X
n i=1(X
i− θ) ³ (X
i− θ)
2− 3m
(n)2(θ) ´ ,
o` u γ
(n)⊙(φ
1) := m
(n)6(θ) − 6m
(n)2(θ)m
(n)4(θ) + 9(m
(n)2(θ))
3.
Si θ est non sp´ecifi´e, il convient bien sˆ ur de l’estimer. Le test a ´et´e construit de telle sorte que cette estimation se fasse sans perte de puissance. Nous retrouvons alors le test (15) si θ est estim´e par la moyenne ¯ X
(n).
Dans un contexte semi-param´etrique, il est souhaitable que la distribution sous l’hypoth`ese nulle de la statistique de test soit invariante sous des perturbations de σ, f
1et θ dans le cas o` u ces param`etres ne sont pas sp´ecifi´es. Quand la position θ est sp´ecifi´ee, cet objectif est atteint en basant les tests sur les signes s
(n)ides Z
i(θ, b σ
#) := (X
i− θ)/ b σ
#, i = 1, ..., n et les rangs R
(n)+,ide leurs valeurs absolues. Comme expliqu´e dans la section pr´ec´edente, ces tests sont invariants sous toutes les transformations du groupe G
θ(n),
◦. Quand θ est non sp´ecifi´e, les signes et les rangs doivent ˆetre calcul´es `a partir de Z
i( θ b
#, σ b
#), i = 1, ..., n, o` u θ b
#= θ b
(n)#et σ b
#= b σ
(n)#sont des estimateurs racine-n convergents et discr´etis´es de θ et σ.
Ces tests non param´etriques sont localement et asymptotiquement optimaux au sens de Le Cam sous f
1. Par exemple, le test de van der Waerden, qui rejette l’hypoth`ese nulle pour les grandes valeurs de
T e
(n)
vdW
(θ) := 1 q
n γ e
(n)
(φ
1) X
n i=1s
i(θ)Φ
−1³ n + 1 + R
(n)+,i(θ) 2(n + 1)
´³³ Φ
−1³ n + 1 + R
+,i(n)(θ) 2(n + 1)
´´
2− 3 ´ , (17)
o` u Φ est la fonction de r´epartition de la loi normale standard et γ e
(n)
(φ
1) := n
−1X
n r=1Φ
−1³ n + 1 + r 2(n + 1)
´³³ Φ
−1³ n + 1 + r 2(n + 1)
´´
2− 3 ´
2,
est libre sous l’hypoth`ese de sym´etrie par rapport `a θ, asymptotiquement ´equivalent au test fond´e
sur b
(n)1sous les densit´es gaussiennes, et asymptotiquement optimal contre des alternatives locales
de la forme (1) avec f
1= φ
1et ξ > 0. Nous montrons ´egalement que les efficacit´es asymptotiques
relatives de ce test non param´etrique par rapport au test fond´e sur b
(n)1sont, sous une vaste classe de densit´es non-gaussiennes, strictement sup´erieures `a 1.
Quand θ n’est pas sp´ecifi´e, la statistique de test (score normal) prend la forme T
e
(n)∗
vdW
( θ) := b 1 q
n γ e
(n)∗
(φ
1) X
n i=1s
i( θ)Φ b
−1³ n + 1 + R
(n)+,i( θ) b 2(n + 1)
´³³ Φ
−1³ n + 1 + R
(n)+,i( θ) b 2(n + 1)
´´
2− κ e
(n)
(φ
1; θ) b ´ ,
o` u γ e
(n)∗
(φ
1) := n
−1P
nr=1Φ
−1³
n+1+r2(n+1)´³³ Φ
−1³
2(n+1)n+1+r´´
2− κ e
(n)
(φ
1; θ) b ´
2.
La forme de cette statistique de test fait donc apparaˆıtre le probl`eme de l’estimation κ e
(n)
(φ
1; θ), b ou plus g´en´eralement κ
e
(n)
(f
1; θ) du param`etre b κ := J (f
1, g
1)/ I (f
1, g
1) o` u I (f
1, g
1) :=
Z
1 0φ
f1³ F
1−1(u) ´ φ
g1³ G
−11(u) ´ du, et J (f
1, g
1) :=
Z
10
(F
1−1(u))
2φ
f1³ F
1−1(u) ´ φ
g1³ G
−11(u) ´ du
(les fonctions F
1(.) et G
1(.) sont les fonctions de r´epartition standardis´ees correspondant `a f
1et g
1). La construction de cet estimateur (et donc des estimateurs de J (f
1, g
1) et I (f
1, g
1)) est fond´ee principalement sur une propri´et´e de lin´earit´e asymptotique. Notons S
e
(n)
(θ) (et sa version discr´etis´ee S
e
(n)
#
(θ)) une suite arbitraire de statistiques faisant intervenir les rangs R
(n)i(θ) d’un n-tuple de r´esidus Z
i(n)(θ) qui, sous une collection de mesures de probabilit´e P
(n)θ,σ;g1sont i.i.d., avec densit´e standardis´ee g
1. Nous supposons que, sous P
(n)θ,σ;g1, quand n → ∞ ,
(R1) S e
(n)
(θ) est un O
P(1) mais pas un o
P(1);
(R2) θ b est un estimateur de θ, racine-n convergent, avec une version discr´etis´ee θ b
#; (R3) pour tout t ∈ R , S
e
(n)
(θ + n
−1/2t) = S e
(n)
(θ) − tσ
−1J (g
1) + o
P(1), et (R4) σ est estim´e de mani`ere convergente par σ, de version discr´etis´ee b σ b
#. Soit θ
e
(n)
(β) := θ b
#+ n
−1/2β σ b
#S e
(n)
#
( θ b
#), β
−:= min { β
ℓ:= ℓ/c | S
e
(n)
#
( θ e
(n)
(β
ℓ+1)) S e
(n)
#
( θ b
#) < 0 } et β
+:= β
−+ 1 c
o` u c > 0 est une constante de discr´etisation arbitraire et ℓ ∈ N . Avec l’hypoth`ese (R3) ci-dessus, nous obtenons
S e
(n)
#
( θ e
(n)
(β
±)) S e
(n)
#
( θ b
#) = (1 − J (g
1)β
±)( S e
(n)
#
( θ b
#))
2+ o
P(1). (18) Definissons
J
(n)(g
1) := [β
∗]
−1:=
β
−+ 1 c
S e
(n)
#
( θ e
(n)
(β
−)) S
e
(n)
#
( θ e
(n)
(β
−)) − S e
(n)
#
( θ e
(n)
(β
+))
−1
.
Nous pouvons alors montrer que J
(n)(g
1) est un estimateur convergent de J (g
1) sous P
(n)θ,σ;g1
, quand n → ∞ . Un estimateur convergent de κ est d`es lors obtenu en appliquant la proc´edure d´ecrite ci-dessus afin d’obtenir les estimations de J (f
1, g
1) et I (f
1, g
1). En pratique, nous cherchons par une it´eration des valeurs de β, la plus petite valeur de β pour laquelle l’expression en (18) est n´egative.
4.3 Chapitre 2
Dans le deuxi`eme chapitre, nous consid´erons `a nouveau le probl`eme consistant `a tester la sym´etrie dans un mod`ele univari´e. Le but est de construire des tests optimaux, au sens lo- cal et asymptotique, dans des familles de la forme (2). Nous testons donc l’hypoth`ese nulle ξ = 0 dans des familles de Fechner, o` u le param`etre d’´echelle σ est non sp´ecifi´e, et o` u la position θ et la densit´e standardis´ee f
1sont sp´ecifi´ees ou non. Si f
1est une nuisance, les tests doivent ˆetre adapt´es en ayant recours, par exemple, aux rangs sign´es.
A nouveau, le point de d´epart de ce chapitre est la propri´et´e LAN. Nous montrons que la famille (2) poss`ede la propri´et´e de normalit´e locale asymptotique `a condition que (i) f
1∈ F
0soit absolument continue, (ii) fortement unimodale (z 7→ φ
f1(z) := − f ˙
1(z)/f
1(z) sera alors monotone croissante), et (iii) tel que J (f
1) < ∞ .
La suite centrale et la matrice d’information qui interviennent dans ce mod`ele sont
∆
∆
∆
(n)f1
(ϑ ϑ ϑ) =:
∆
(n)f1;1
(ϑ ϑ ϑ)
∆
(n)f1;2
(ϑ ϑ ϑ)
∆
(n)f1;3
(ϑ ϑ ϑ)
= n
−1/2X
n i=1
1
σ
φ
f1(Z
i)
1
σ