• Aucun résultat trouvé

3. Analyses physico chimiques des échantillons

3.2. Décomposition d’une série chronologique

L’analyse des séries chronologiques considère la décomposition en trois types de variations (Figure III-3.1):

▫ Un élément purement aléatoire (εεεε), exempt par conséquent de toute régularité et de tout

caractère systématique.

▫ Un élément tendanciel (f) ou « tendance », traduisant un comportement préférentiel de la

variable.

▫ Un élément oscillatoire ou cyclique (S), indice d’un comportement plus ou moins

périodique ou présentant des répétitions plus ou moins régulièrement espacées.

Selon le modèle additif, où Var(εt) est constante dans le temps, les valeurs au temps t sont la

superposition de ces trois sources de variation :

Y

t

= f

t

+ S

t

+ εεεε

t (37)

3.2.1. Que faut-il entendre par « Tendance » ?

La tendance (trend en anglais) de la série est le plus souvent la composante la plus importante dans une série chronologique, elle traduit l’évolution à moyen terme du phénomène. On parle aussi de mouvement conjoncturel ou mouvement extra-saisonnier. La chronique correspondante (notée ft) est

Figure III-3.1 : Décomposition d’une série chronologique (Benavent, 1999)

C’est elle qui fait l’objet de l’attention de l’analyste. Cette tendance peut avoir un caractère linéaire : la série croît d’une même quantité à chaque période ou avoir un caractère exponentiel : la série croît à un taux constant. Elle sera estimée sous forme paramétrique (polynôme, exponentielle, …) ou comme le résultat d’une opération de lissage. Il semble que l’on puisse imaginer la « tendance » comme un mouvement à longue période. Naturellement le qualificatif « longue » dépend de l’échelle à laquelle l’on se place. Ainsi la température moyenne annuelle, d’un site donné, considérée de 1874 à 1950, semble s’accroître avec le temps : nous dirons qu’elle présente une « tendance ». Mais il est bien évident que, si nous possédions les températures moyennes annuelles de ce site depuis 2000 ans ou plus, nous trouverions certainement des périodes de plusieurs dizaines (ou centaines) d’années pendant lesquelles la température a accusé une lente décroissance. La tendance n’est qu’une partie d’une lente oscillation, dont la période à l’échelle de l’homme est « longue » (mais serait « courte à l’échelle d’une entité supposée immortelle). Il serait évidemment très hasardeux de déduire de la présence de la « tendance » en hausse des températures depuis quelques dizaines d’années, une évolution inéluctable vers un climat de plus en plus torride … Il y a lieu, comme l’on voit, d’être excessivement prudent dans l’extrapolation d’une tendance dans le temps.

3.2.2. La composante saisonnière

La composante saisonnière ou mouvement saisonnier représente des effets périodiques de période connue p qui se reproduisent de façon plus ou moins identique d’une période sur l’autre. La chronique correspondante, également déterministe, est notée St avec t = 1, …, T. Elle est généralement supposée

rigoureusement périodique : St+p = St et les valeurs Sj = Sij avec j = 1, …, p d’une période sont appelées

coefficients saisonniers. Le bilan de l’effet saisonnier sur une période doit être nul car il est pris en compte dans la tendance.

La composante saisonnière permet simplement de distinguer à l’intérieur d’une même période une répartition stable dans le temps d’effets positifs ou négatifs qui se compensent sur l’ensemble de la période. Les cycles forment parfois une composante essentielle de la variation de la série. Mathématiquement ces cycles suivent les descriptions trigonométriques. Les fonctions sinus et cosinus rendent ainsi compte de ces alternances. Une description de type ondulatoire nécessite l’emploi de deux critères : l’amplitude de la variation ainsi que sa fréquence. Les qualificatifs « oscillatoire » et « cyclique » doivent être aussi précisés afin d’éviter des divergences d’interprétation. Nous dirons qu’un élément est « cyclique » s’il est rigoureusement périodique c’est à dire s’il se reproduit identiquement à lui-même au bout d’un intervalle de temps constant. Nous dirons qu’il est oscillatoire lorsqu’il se meut avec plus ou moins de régularité autour d’une valeur moyenne et que, par suite, ses maxima et minima ne sont ni rigoureusement constants en amplitude, ni régulièrement espacés. Dans ce sens un élément cyclique est évidemment oscillatoire (oscillations périodiques) mais un élément oscillatoire n’est pas cyclique.

3.2.3. La composante résiduelle

La composante résiduelle ou variation accidentelle est la partie non structurée du phénomène. Elle est modélisée par une suite de variables aléatoires εt avec t = 1, …, T, centrées, dépendance aléatoire et de

même variance.

♣De façon générale, les chroniques comportent une combinaison des trois éléments précédents, ou de deux de ces éléments. Elles ne sont que rarement « pures » c’est à dire composées d’un seul de ces éléments. Les séries purement cycliques sont naturellement les seules susceptibles d’être extrapolées avec certitude et d’apporter, par suite, une certitude dans la prévision de l’évolution du phénomène auquel elles se rapportent. Lorsqu’un élément aléatoire se superpose à une telle série, une extrapolation permet une prévision de l’évolution du phénomène d’autant meilleure que la dispersion de l’élément aléatoire est plus faible. Malheureusement les séries cycliques (même avec composante aléatoire) sont rares en pratique. Dans les cas les plus favorables il faut se contenter de séries oscillatoires (avec, en général, superposition d’un élément aléatoire), à partir desquelles une prévision présente plus ou moins de chance de succès. Ceci explique en grande partie pourquoi en pratique (et en particulier en météorologie) la prévision « phénoménologique » est si difficile et conduit à un certain nombre d’échecs absolument inévitables. Le mieux est évidemment de tirer le maximum possible de l’étude d’une série chronologique. Le problème essentiel de l’analyse d’une série chronologique est de détecter les éléments dont elle se compose de façon à pouvoir étudier individuellement ces divers éléments. Les éléments composant une série chronologique prêtent parfois à des interprétations diverses. Si l’élément aléatoire ne prête généralement pas à discussion, il n’en est pas de même de la « tendance » et de l’élément oscillatoire ou cyclique.

♣ Le but de l’étude des séries chronologiques est de pouvoir détecter et estimer une tendance éventuelle au sein des données afin de pouvoir faire des prévisions à moyen terme à partir de l’historique des données. Il existe six étapes dans la prévision : (1) Définir la problématique, (2)

Constituer une base de données la plus complète et homogène, (3) Mener une étude statistique des données et une exploration visuelle des séries : moyenne, valeurs minimales, maximales, Percentiles, corrélation,… afin de détecter la présence d’une tendance, saisonnalité, cycles …. (4) Détecter la présence d’une tendance, saisonnalité, cycles… (5) Estimer la magnitude de la tendance, (6) Choisir un modèle de prévision.

3.3. Prévisions

De grandes quantités de données sont collectées sous forme de séries temporelles dans lesquelles les observations sont dépendantes. Etre capable de prévoir de façon optimale est utile et très important. La prévision est basée sur un modèle ajustant les observations historiques d’une série temporelle. Le modèle choisi dépend de la façon dont les prévisions seront utilisées, du degré de précision requis pour les prévisions, de la quantité et du type de données et de l’horizon de prévision désiré. Le modèle ajusté détermine si les prévisions doivent s’aligner le long d’une ligne droite, d’une courbe exponentielle, et ainsi de suite. Il nous permet de voir exactement comment les prévisions utilisent les données historiques pour déterminer la variation des erreurs de prévision et pour calculer les limites à l’intérieur desquelles une valeur future de la série temporelle sera avec une probabilité donnée.

♣ Quelques modèles de prévision :

1. Cheminement aléatoire : prévision aléatoire de la prochaine observation basée sur l’observation courante et sur la moyenne et l’écart-type de la différence entre les données.

2. Tendance linéaire : ajustement d’une ligne droite aux données et aux périodes des prévisions. 3. Tendance exponentielle : ajustement d’une courbe exponentielle aux données et aux périodes des prévisions.

4. Lissage exponentiel linéaire de Brown : lisse les données et fait des prévisions en appliquant une formule de double lissage utilisant un paramètre alpha aux données de la série temporelle.

5. Lissage exponentiel linéaire de Holt : lisse les données et fait des prévisions en appliquant une formule de double lissage utilisant deux paramètres aux données de la série temporelle.

6. Lissage quadratique de Winter : lisse les données et fait des prévisions en appliquant une formule de lissage utilisant trois paramètres aux données de la série temporelle. Il estime le niveau de la série (stationnarité), la tendance linéaire et la saisonnalité.

7. Modèle ARIMA : permet d’estimer et de faire des prévisions en utilisant les méthodes prescrites par Box et Jenkins (1976).

4

4..LLeesstteessttssssttaattiissttiiqquueess

Un test est un mécanisme qui permet de « trancher » entre deux hypothèses au vu des résultats d’un échantillon. Soient H0 et H1, ces deux hypothèses (H0 est appelée hypothèse nulle, H1 hypothèse

alternative), dont une et une seule est vraie. La décision aboutira à choisir H0 ou H1. Il y a donc 4 cas

possibles schématisés dans le tableau suivant avec les probabilités correspondantes :

Décision/Vérité H0 H1

H0 1 - α β

H1 α 1- β

où α et β sont les probabilités d’erreur de première et deuxième espèce :

▫ α probabilité de choisir H1, alors que H0 est vraie. Autrement dit, si l’on rejette

l’hypothèse vraie, nous commettons une erreur de première espèce (ou erreur type I). α symbolise le niveau de signification. Traditionnellement, on favorise deux seuils : le premier α = 0,05 correspond

à un événement ayant cinq chances sur cent de se produire, le second α = 0,01 correspond alors à une chance sur cent.

▫ β probabilité de conserver H0, alors que H1 est vraie. Si l’on accepte une hypothèse fausse

alors nous commettons une erreur de deuxième espèce (ou erreur de type II).

▫ (1–α) est la probabilité de rejeter H1 en ayant raison.

▫ (1-β) est la probabilité d’opter pour H1 en ayant raison. (1-β) s’appelle « puissance du test ».

Généralement l’hypothèse alternative H1 correspond à l’hypothèse que nous désirons mettre en

évidence. De ce fait, (1-β) est la probabilité d’obtenir le résultat que nous souhaitons démontrer. Il faut savoir que pour un échantillon d’effectif donné, la valeur α est inversement reliée à la valeur β. Plus petites seront les probabilités de commettre une erreur de type I, plus grandes seront les probabilités de commettre une erreur de type II. La seule manière de réduire simultanément les deux types d’erreur est d’augmenter les effectifs des échantillons. Ainsi, de grands échantillons résulteront des tests statistiques avec une puissance (1-β) élevée. Nous remarquons que dans la plupart des articles scientifiques rapportant l’utilisation d’un test statistique la valeur β n’est pas mentionnée. Une des raisons souvent invoquée est la complexité du calcul de la puissance. Ainsi, même s’il faisait preuve de la meilleure volonté, l’utilisateur du test statistique se trouverait fréquemment dans l’impossibilité de calculer la puissance (1-β) d’un test. La disparition du risque β interdit toute conclusion ferme quand, au bout du compte, nous ne pouvons rejeter l’hypothèse nulle. Dans ce cas, ne pas rejeter l’hypothèse nulle signifie seulement qu’elle est acceptée provisoirement parce que nous ne pouvons pas faire autrement. Ce la ne prouve en aucune manière qu’elle est vraie.

Par contre, si nous avons calculé le risque de seconde espèce β, α représente la force de la preuve requise pour accepter l’hypothèse alternative, alors que β permet de connaître la puissance de la procédure et donc d’avoir une idée de la plausibilité de l’hypothèse nulle quand celle-ci a été acceptée.

La robustesse d’un test par rapport à un certain modèle est donc la qualité de rester relativement

insensible à certaines modifications du modèle : on constatera que les tests sur les moyennes sont robustes.

⇒ Maintenant, voyons les différents tests statistiques usuels :