• Aucun résultat trouvé

Chapitre 3. Nouveaux tests de rupture

3.1. Tests de rupture avec B-splines

Tout en se basant sur les modèles TPR et LR décrits dans la section 2.2.2 et la sous-section 2.2.2.1, on va introduire les splines à ceux-ci, plus précisément les B-splines (section 1.3). Les B-splines sont une alternative à la régression linéaire et, quoi que plus complexes, approximent mieux les données (ici on utilise des B-splines cubiques). Afin d’investiguer l’efficacité de ce nouveau test et de savoir si nous poussons plus loin l’analyse de cette méthode, nous effectuerons des si- mulations à l’aide du modèle ci-dessous où les i sont des erreurs provenant d’une

population normale avec une rupture au point τ :

yi =    µ1+ i si i = 1, ..., τ µ2+ i si i = τ + 1, ..., T,

avec les hypothèses :

H0 : µ1 = µ2,

H1 : µ1 6= µ2.

Puisque le choix des noeuds est important, on fait en sorte qu’il y ait 10 observa- tions entre chaque noeuds ; si la taille de l’échantillon n’est pas un multiple de 10,

alors on inclut moins d’observations entre les deux derniers noeuds. Sous l’hypo- thèse nulle, la B-spline a pour noeuds extérieurs {1, T } et les noeuds intérieurs sont {10, 20, ..., T − 10}.

Sous l’hypothèse alternative, on sépare le modèle en deux B-splines. La première comprend les données y1, ..., yτ et la seconde yτ +1, ..., yT, où {1, τ } et {τ + 1, T }

sont respectivement les noeuds externes pour la première et la seconde B-spline. Les noeuds internes restent les mêmes. Si un noeud interne a la même valeur qu’un noeud externe, on le considère comme ce dernier.

3.1.1. Première tentative de test

Si l’on suit le raisonnement de Reeves et al., en supposant le point de rupture

τ connu, alors la statistique de test devient :

=

(SSE0− SSEA)/(df0− dfA)

SSEA/(dfA)

∼ Fdf0−dfA,dfA,

où df0 et dfA sont respectivement les degrés de liberté de SSE0 et SSEA. Mais,

dans notre cas, on suppose que τ est inconnu et on utilise la statistique :

Fmax = max t0≤τ ≤T −t0

Fτ.

Comme il faut qu’il y ait au moins un noeud interne pour utiliser une spline (sinon ce ne serait qu’une régression cubique), on choisit dans notre cas t0 = 20

on fait varier la rupture de 20 à (T − 20) et non de 1 à T comme dans le modèle de Reeves et al. (2007) afin d’avoir une stabilité dans notre modèle. Nous voulons qu’il y ait au moins une spline de chaque côté de la rupture et c’est pourquoi on choisit t0 = 20. Si la rupture se trouve vraiment au début ou à la fin des données,

le test ne la détectera pas. Les valeurs critiques sont encore une fois trouvées par simulation. Nous avons effectué 1000 simulations du modèle présenté à la page précédente avec T = 100 et nous avons répété celles-ci pour chaque valeur de i dans µ1 = 0, µ2 = i, i = 0, ..., 10.

Pour les valeurs critiques trouvées au niveau α = 0,05, la puissance de ce test est beaucoup moins élevée que le test initial de Reeves et al. (2007) et encore moins que le test de Lombard (1987). Par exemple, lors d’une simulation de 1000 jeux de données avec µ1 = µ2− 10, le test avec B-spline détecte une différence dans la

moyenne dans seulement 30% des cas, tandis que le test de Lombard détecte une différence dans 100% des cas lorsque µ1 = µ2− 5. Le problème est que la B-spline

approxime trop bien les données. Sa meilleure qualité devient en quelque sorte son défaut pour ce test. On ne développera pas plus ce test. Il faut donc trouver une autre méthode. Il faut bien noter que nous ne supposons pas initialement que

21 l’utilisation des splines améliorerait à coup sûr le modèle de Reeves et al. (2007) mais bien que celles-ci pourraient peut-être, d’une certaine façon, rendre plus performant un modèle déjà existant. La section 3.1.1. a été ajoutée au mémoire afin que tout le raisonnement menant au modèle que nous allons garder plus loin soit exposé.

3.1.2. Seconde tentative de test

On pourrait déterminer une nouvelle méthode en observant les coefficients des B-splines aux noeuds. Pour commencer, si on observe les coefficients des B- splines obtenus sous l’hypothèse alternative, lorsque µ1 6= µ2, on remarque que

les coefficients des B-splines sont sensiblement les mêmes. Trouver une statistique par rapport à cela n’a pas fonctionné, car la valeur critique varie en fonction de la moyenne de l’échantillon (les valeurs critiques pour deux échantillons (y1, ..., yT)

et (y1 + a, ..., yT + a), où a est une constante, n’étaient pas les mêmes). Puis,

on a observé les coefficients de la B-spline sous l’hypothèse nulle, c’est-à-dire en supposant que µ1 = µ2. On remarque que la valeur des coefficients après la

rupture est beaucoup plus élevée comparativement à celle des coefficients avant la rupture lorsque la différence réelle entre µ1 et µ2 est élevée que lors du contraire.

On peut donc se demander jusqu’à quel point est-ce que les coefficients diffèrent et si c’est possible de créer une statistique à partir de ceux-ci. On propose donc la statistique suivante : = Pn1 i=1α1i n1 − Pn2 i=1α2i n2 , oùPn1

i=1α1ietPni=12 α2isont respectivement les sommes des coefficients du B-spline

avant et après la rupture et où n1 ainsi que n2 sont respectivement le nombre de

noeuds avant et après la rupture. Comme on suppose que le point de rupture τ est inconnu, on utilise la statistique :

Sτ,max = max t0≤τ ≤T −t0

Sτ.

Ici on choisit encore t0 = 20 pour les mêmes raisons expliquées précédemment.

Si la méthode détecte une rupture, Sτ sera maximale entre les deux noeuds où

il y a la rupture. On ne pourra donc pas explicitement dire l’endroit exact de la rupture, mais plutôt entre quels noeuds elle se trouve. Comme cette statistique est nouvelle et suit une loi inconnue, il faut établir ses valeurs critiques au niveau 5% pour différentes tailles d’échantillons, différentes variances et différents em- placements de la rupture. Ce que nous avons fait par simulations, en utilisant des données suivants une loi gaussienne de moyenne 0 et dont les valeurs critiques en

utilisant différentes tailles d’échantillons ainsi que de variances lors de celles-ci sont présentées dans le tableau 3.1.

Tableau 3.1. Valeurs critiques à 5% de Smax en fonction de T et

de l’écart type σ T σ 1 2 3 4 5 6 50 0,98 1,93 2,94 3,89 4,87 5,85 100 0,83 1,69 2,55 3,36 4,18 5,02 200 0,77 1,57 2,40 3,09 3,84 4,61 400 0,74 1,51 2,29 2,99 3,71 4,45 1000 0,73 1,44 2,27 2,95 3,66 4,40

Les valeurs critiques varient avec la taille de l’échantillon ainsi qu’avec la variance de celui-ci. Lorsque la variance augmente, on remarque que la valeur critique augmente linéairement avec l’écart-type. Pour un échantillon de taille 100 suivant une loi normale d’écart-type σ = 4, la valeur critique est 0,84σ. Comme dans notre cas, la variance est inconnue, on l’estime par :

ˆ σ2 = 1 T − 1 T X i=1 (yi− y)2, où : y = 1 T T X i=1 yi,

et alors la valeur critique (toujours pour le même exemple) est 0,84ˆσ. Nous au-

rions pu utiliser comme variance l’estimateur défini à la sous-section 2.2.1 (sτ).

Cependant, sτ peut s’écrire sous la forme suivante :

= 1 T − 2  (T − 1) ˆσ2− τ (y − y τ)2− (T − τ )(y − yτ) 2.

Sous l’hypothèse nulle, yτ ≈ y2

τ ≈ y et donc, pour un T assez grand, sτ ≈ ˆσ2.

C’est pourquoi nous avons utilisé ˆσ2 comme estimateur de la variance pour cette

méthode. Afin que les valeurs critiques ne dépendent plus de l’écart-type et afin de simplifier les tableaux, on considère la nouvelle statistique :

Sτ∗ = 1 ˆ σ Pn1 i=1α1i n1 − Pn2 i=1α2i n2 .

Tout comme Sτ, on suppose que le point de rupture est inconnu et on utilise :

Sτ,max∗ = max

t0≤τ ≤T −t0

23 où t0 est une fois de plus égal à 20. Les valeurs critiques sont une fois de plus

trouvées par simulation (elles correspondent exactement à la première colonne du tableau 3.1). De plus, lorsque la taille de l’échantillon tend vers l’infini, la valeur critique à 5% tend vers 0,71. On remarque que la puissance ne varie pas beaucoup dépendamment de la position de la rupture (voir le tableau 3.2).

Tableau 3.2. Puissance (en %) du test dépendamment de la po- sition de la rupture (µ1 = µ2− 5) H H H H H H H σ τ 25 40 50 60 75 4 93,8 94,8 95,5 96,6 95,5 5 80,9 78,9 79,8 78,7 77,4

Documents relatifs