Le bootstrap contraint - Dimension reduction in regression

Dans le chapitre 3, nous proposons une méthode dénomméebootstrap contraint (boots-trap CS) permettant la réalisation d’un test d’hypothèse boots(boots-trap d’appartenance à une variété. La méthodologie développée a pour application directe le test de rang (9) avec les statistiquesΛb1,Λb2 etΛb3. Nous présentons tout d’abord le problème de manière générale.

SoitMune variété localement lisse de codimension q, les hypothèses du test sont

H₀: θ₀ ∈ M contre H₁: θ₀∈ M/ , (17)

où θ₀ ∈R^p. On note J_g la jacobienne, si elle existe, de la fonction g. Sous H₀, on déﬁnit la fonctiong:R^p → R^q, C^∞, telle que V ∩ M={g= 0}, où V est un voisinage de θ₀, et Jg(θ0) est de rang plein.

2.3.1 Un famille de statistiques adaptée au test d’appartenance à une variété Soitθb∈R^p, un estimateur deθ0. On introduit le familleDcomposée de statistiques qui évaluent de diﬀérentes manières la distance deθbà la variété M. Formellement, on déﬁnit

l’estimateur contraint θb_c comme le point le plus proche de bθ selon une certaine distance, qui appartient àM. Plus précisément, posons

θb_c = argmin

θ∈M

(θb−θ)^TA(b θb−θ), (18) oùAb∈R^p×p. Ensuite, on déﬁnitΛb qui évalue une autre distance entre θbc à θ. Prenonsb

Λ =b n(θb−θb_c)^TB(bb θ−θb_c), (19) oùBb∈R^p×p. La familleD est l’ensemble des statistiquesΛ. Sous certaines conditions lesb membres de D produisent un test consistant, ce qui nous donne une première indication quant au choix deAbetB.b

Proposition 19 (Chapitre 3, conséquence de la Proposition 3.4, page 108). Supposons H₀, √

n(θb−θ₀)→ N^d (0,∆), Bb →^P B symétrique etAb→^P A est inversible, alors on a Λb −→^d

Xp k=1

ν_kW_k²,

où les W_k’s sont des variables Gaussiennes i.i.d. et les ν_k’s sont les valeurs propres de la matrice

∆^1/2J_g(θ₀)^T(J_g(θ₀)A⁻¹J_g(θ₀)^T)⁻^TJ_g(θ₀)A⁻^TBA⁻¹

J_g(θ₀)^T(J_g(θ₀)A⁻¹J_g(θ₀)^T)⁻¹J_g(θ₀)∆^1/2.

En montrant que sousH₁, la statistique Λb tend vers l’inﬁni en probabilité, on obtient le résultat suivant.

Théorème 20. Sous les conditions de la Proposition 19, la famille D teste (17) de façon consistante.

La réalisation d’un tel test n’est pas simple pour autant. Listons quelques problèmes liés à sa mise en œuvre, et donnons plus d’indications concernant le choix de AbetB.b (1) En général, la loi limite n’est pas pivotale. Une première possibilité est d’estimer toutes

les quantités inconnues de la loi limite et de simuler cette dernière afin d’obtenir une estimation des quantiles. Pour simplifier une telle asymptotique, on peut se placer dans la sous-classeAb=Bb symétrique et de rang plein¹⁶. Et afin de résoudre définitivement ce problème, on peut prendre Ab= ∆⁻¹. Dans ce cas Λb est pivotale et converge vers un chi2. Une autre possibilité réside dans l’approximation proposée dans [5] et [79] qui consiste à approcher la loi asymptotique de la statistique par une loi du chi2 de même moyenne ou de même variance.

16. Dans cette classe, la loi asymptotique de Λb s’exprime avec la matrice

∆^1/2Jg(θ0)^T(Jg(θ0)A⁻¹Jg(θ0)^T)⁻¹Jg(θ0)∆^1/2

2 Estimation de la dimension 37 (2) En prenantAb=Bb= ∆⁻¹, on évite le problème (1), mais on se trouve confronté à une deuxième difficulté. En effet, la dimension p peut être grande ce qui rend l’inversion de A difficile, et donc qui écarte la statistique de sa loi asymptotique. Dans une telle configuration, on peut par exemple, prendreAb=Bb=I afin d’éviter l’inversion d’une grande matrice.

(3) Enﬁn si la matriceJ_g(θ₀)est inconnue, on ne peut tout simplement pas réaliser le test avec la Proposition 19.

En conséquence, l’utilisation du bootstrap est encouragée par deux arguments princi-paux. Tout d’abord, d’après la Section 2.2.2, le bootstrap jouit d’une grande précision lorsque la statistique est pivotale. Par exemple, si Ab=Bb= ∆⁻¹, le bootstrap récu-père des vitesses convenables, endommagées par l’inversion matricielle (problème (2) et Figure 1). Par ailleurs, lorsque la loi asymptotique est inconnue (problème (1) et ﬁgure 2), le bootstrap permet d’éviter certaines approximations. En particulier si on ne peut estimer la loi limite, (problème (3)) le bootstrap réalise un test consistant, alors que l’approche traditionnelle échoue.

2.3.2 Le bootstrap CS pour la famille D

Le bootstrap CS est une procédure composée de deux étapes. Tout d’abord, soucieux de respecter le Conseil (1), on crée une première version bootstrap deθbqui ressemble àθb sousH₀. On déﬁnit

θ₀^∗=bθ_c+n⁻^1/2W^∗, avec L∞(W^∗|P) =b L∞(n^1/2(θb−θ₀)) a.s.,

où L∞ signifie la loi asymptotique. Ainsi θ₀^∗ se trouve proche de la variété M. Notons même que la distance deθ^∗₀ àM est enOP(n⁻^1/2), tout comme la distance entre θbet M lorsqueH0 est vérifiée, sous les hypothèses de la Proposition 19. Ensuite, on applique àθ^∗₀ les mêmes opérations qu’àθbafin de définir les versions bootstrap

θ_c^∗= argmin

θ∈M

(θ₀^∗−θ)^TA^∗(θ₀^∗−θ) et Λ^∗ =n(θ₀^∗−θ_c^∗)^TB^∗(θ^∗₀−θ^∗_c),

oùA^∗∈R^p×p etB^∗ ∈R^p×p représentent les versions bootstrap deAbetB. En particulierb on pourra prendre A^∗ = Ab et B^∗ = Bb. Notre résultat principal concernant le bootstrap CS est le suivant. bootthtest

Théorème 21 (Chapitre 3, Théorème 3.6, page 109). Supposons que θb^a.s.→ θ₀, Ab →^P A est inversible, Bb →^P B. Si de plus,L_∞(√

n(θ^∗₀−θb_c)|P)=b L_∞(√

n(θb−θ₀)) p.s. possède une densité, et conditionnellement p.s.A^∗→^P A,B^∗→^P B, alors on a

P_H

0(Λb>bq(α))−→1−α, and P_H

1(Λb >q(α))b −→1.

En d’autres termes, le test (17) avec la familleD et l’évaluation des quantiles par le boots-trap CS est consistant.

2.3.3 Application

Le test d’appartenance à une variété (17) a pour application les tests de rang évoqués précédemment. Plus précisément, on démontre, dans le Chapitre 3, que pour tout k ∈ {1,2,3}, Λb_k ∈ D. Ainsi on peut utiliser le bootstrap CS pour l’estimation du rang d’une matrice et donc pour l’estimation de la dimension dans les modèles de type RIV.

Les simulations du Chapitre 3 nous montrent le bon comportement du bootstrap CS en pratique. Dans toute les situations rencontrées, le bootstrap procure un test plus précis que le test traditionnel.

Nous utilisons le bootstrap CS pour tester la dimension du modèle (13), rencontré à la section 2.1.3. Les quantiles sont calculés avec un échantillon bootstrap de tailleB = 1000¹⁷. Les résultats des niveaux estimés sont présentées Figure 3. Cette dernière est constituée du graphique de la Figure 2 auquel on a ajouté les résultats du test bootstrap.

Pour chacune des conﬁgurations présentées, le test bootstrap l’emporte sur son homo-logue traditionnel. De plus, à partir den= 100, n’importe quel test bootstrap est meilleur que tous les autres tests traditionnels.

Dans le document Dimension reduction in regression (Page 36-39)