• Aucun résultat trouvé

5.2.1 Modèle générique d'estimation du lien

Le lien entre deux ou plusieurs séries temporelle peut être estimé par un modèle de

régression linéaire avec erreurs autorégressives comme détaillé au chapitre 3. Ici, la

74 5.2. Méthodes

Temps (mois)

Incidence des inf

ections à pneumocoque pour 100 000 habitants

Juil 2002 Juil 2003 Juil 2004 Juil 2005 Juil 2006 Juil 2007 Juil 2008 Juil 2009

0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7

Incidence des antibiotiques et des syndromes gr

ippaux (pour 100 habitants)

Sources: PMSI, CNAMTS, RSI et Sentiweb

Figure 5.1 Incidence de l'indicateur des infections invasives communautaires à pneumocoque (en

noir), de l'indicateur de la consommation d'antibiotiques (en bleu) et de l'indicateur des syndromes

grippaux (en vert) en France de juillet 2002 à juin 2009.

série à expliquer est IICP

t

pourt= juillet 2002 à juin 2009. D'après l'équation (3.13)

et dans le cas d'une relation entre deux séries temporelles uniquement, le modèle de

régression linéaire avec erreurs autorégressives, s'écrit ainsi :

IICP

t

= ˜X

t0

β˜+νt=β

0

1

t+β

2

X

t+h

+νt

ν

t

1

ν

t−1

+...+φ

p

ν

t−p

+

t

(5.1)

avec X˜

0

t

le vecteur colonne (1, t,X

t+h

), β˜

0

=(β

0

, β

1

, β

2

). En notant ν le vecteur des

erreurs autocorrélées (ν

1

, ..., ν

T

), E(ν

0

ν) = σ

2

V, avec V la matrice des

autocorréla-tions dénie au chapitre 3, aux section 3.3.2 et 3.3.3. Enn, (

t

)

{t=1,...,T}

∼ N(0, σ

2

)

indépendants et identiquement distribués. ∀t∈N, E(ν

t

) = 0 et Cov(X

t+h

, ν

t

) = 0.

Un terme de tendance (β

1

) est intégré au modèle an de tenir compte de

l'augmen-tation linéaire des IICP.

La série indépendanteX

t

représente alternativement ATB

t

et SG

t

. An de déterminer

la valeur dehidentiant le délai d'impact de ATB

t

ou SG

t

sur IICP

t

plusieurs modèles

de régression linéaire comme déni par l'équation 5.1 sont estimés séparément avec h

variant de -3 à 3. h= 0 correspond à la régression entre les séries sans décalage, donc

au même mois. k ≤ 0 correspondent aux cas où la relation lie les IICP

t

aux valeurs

passées de X

t

. h ≥ 0 correspondent aux cas où la relation lie les IICP

t

aux valeurs

futures de X

t

. Pour des données mensuelles, nous supposons que les séries explicatives

ne peuvent pas avoir d'impact sur la série à expliquer qu'au plus avec un décalage de

3 mois. La valeur de h conduisant à l'association signicative la plus forte,

c'est-à-dire correspondant au plus grand t-ratio (voir chapitre 3), est retenu pour le modèle

nal. Ces t-ratios sont signicatifs au seuil de 5% si supérieurs, en valeur absolue,

au quantile de la loi de Student à T −2 degrés de liberté, avec T la longueur des

séries observées [40]. Ici,T = 86et le quantile de la loi de Student vaut 1.96 en valeur

absolue.

Le nombre de paramètres autorégressifs, p, est estimé par une sélection descendante

démarrant avec les 24 premiers paramètres

et en utilisant un seuil de signicativité

de 5%.

Les paramètres {φi, i = 1, ..., p} sont estimés par les équations de Yule-Walker.

En-suite, supposant connus ces paramètres, les paramètres β

0

et β

1

sont estimés par

maximum de vraisemblance. An d'attester de la qualité du modèle, l'indépendance

des résidus est testée par le test de Ljung-Box et la normalité par les tests de Shapiro

et de Kolmogorov détaillés au chapitre 3.

Dans ce modèle générique, la saisonnalité des séries temporelles n'est pas prise en

compte. La section 2.2.2 présente les deux méthodes d'ajustement comparées et la

section 2.2.3 détaille les diérentes stratégies d'ajustement saisonnier.

5.2.2 Méthodes d'ajustement saisonnier

La désaisonnalisation des séries mensuelles saisonnières est envisagé par l'ajustement

à l'aide d'une régression linéaire estimée par les MCO, comme expliqué au chapitre

3, par deux méthodes distinctes.

L'ajustement par une fonction trigonométrique avec une seule fréquence :2π t/12pour

t= juillet 2002 à juin 2009. Comme vu au Chapitre 2, l'indicateur des IICP présente

une tendance de type linéaire, alors que l'indicateur des ATB varie par palier entre les

périodes suivantes : juillet 2002 et juin 2005, juillet 2005 et juin 2008, juillet 2008 et

76 5.2. Méthodes

juin 2009. Ces caractéristiques doivent être intégrées an de désaisonnaliser les séries.

IICP

t

0

1

t+α

2

cos(2π t/12) +α

3

sin(2π t/12) +RIICP

T

t

(5.2)

ATB

t

=

4

X

j=1

α

00j1

{t∈période j } +α

20

cos(2π t/12) +α

03

sin(2π t/12) +RATB

T t

(5.3)

SG

t

000

002

cos(2π t/12) +α

003

sin(2π t/12) +RSG

T t

(5.4)

RIICP

T t

,RATB

T t

etRSG

T

t

correspondent aux résidus des régressions linéaires estimées

par les MCO. Le modèle des IICP inclut un terme de tendance et contient ainsi quatre

paramètres à estimer (α

0

à α

3

). Le modèle des ATB conduit à l'estimation de cinq

paramètres. Enn, le modèle d'ajustement des SG ne contient que trois paramètres

000

, α

002

etα

003

), comme l'indicateur des SG ne présente qu'une saisonnalité.

L'ajustement par splines cubiques de régression avec 6 n÷uds par an pour t= janvier

2002 à décembre 2009 [56,57] :

IICP

t

=

3

X

i=0

γ

0i

t

i

+

7

X

j=1 6

X

k=1

γ

kj3

(t−ξ

kj

)

3+

+RIICP

S t

(5.5)

ATB

t

=

3

X

i=0

γ

00i

t

i

+

7

X

j=1 6

X

k=1

γ

kj0 3

(t−ξ

kj

)

3+

+RATB

S t

(5.6)

SG

t

=

3

X

i=0

γ

000i

t

i

+

7

X

j=1 6

X

k=1

γ

kj003

(t−ξ

kj

)

3+

+RSG

S t

(5.7)

ξ

kj

le kième n÷ud de la jième des 7 années (comptabilisées de juillet à juin) de la

période d'étude. (.)

+

désigne la fonction suivante : u

+

= u si u ≥ 0 et u

+

= 0 si

u ≤0comme décrit dans . RIICP

S

t

, RATB

S

t

et RSG

S

t

correspondent aux résidus des

régressions linéaires estimées par les MCO.

L'ajustement par splines de régression prend en compte la tendance des IICP ainsi que

les changements de niveau moyen des ATB. Il n'est donc pas nécessaire d'introduire

davantage de termes.

Le nombre de n÷uds de la spline a été déterminé par une analyse détaillée en annexes

B, comme étant le nombre de n÷uds réduisant l'AIC dans la grande majorité des cas.

Ainsi, cette méthode conduit à l'estimation de 4 + 6×7= 46 paramètres par modèle

d'ajustement.

Les séries résiduelles, ou séries désaisonnalisées obtenuesRIICP

T

t

,RATB

T t

etRSG

T t

,

RIICP

S t

, RATB

S t

et RSG

S

t

sont également centrées et sans tendance.

5.2.3 Stratégies d'ajustement

Huit stratégies d'ajustement basées sur le modèle de régression avec erreurs

autocor-rélées présenté en 2.2.1 sont envisagées et listées dans le tableau 5.1. La stratégie dans

laquelle la saisonnalité n'est pas prise en compte (Stratégie 0) est conservée dans cette

étude bien qu'elle ne soit pas recommandée, pour avoir une référence. Les stratégies

basées sur un ajustement par une fonction trigonométrique sont symbolisées par la

lettre T, celles basées sur l'ajustement par splines de régression par la lettre S. Aucune

stratégie basée à la fois sur un ajustement par fonction trigonométrique et par splines

de régression n'est étudié. Nous considérons six désaisonnalisations diérées, i.e.

an-térieures à l'estimation du lien, avec l'ajustement de la série à expliquer uniquement

(S1 et T1), l'ajustement de la série explicative uniquement (S2 et T2), l'ajustement

des deux séries (S3 et T3). Une huitième stratégie (T4) dans laquelle la saisonnalité

est directement prise en compte dans le modèle en intégrant une fonction

trigonomé-trique comme covariable et dans lequel les séries sont non désaisonnalisées.

Au nal, ces stratégies mesurent une quantité β

2

qui semble être diérente,

cepen-dant l'interprétation de ce paramètre est identique : l'estimation du lien entre les

indicateurs des IICP

t

et de X

t

après avoir ajuster sur la saisonnalité de ces deux

indicateurs.