1. S´eries non stationnaires : (a) Processus TS :
Un processus TS (trend stationary) s’´ecrit :Xt = α+βt+εt.
C’est un processus non stationnaire car E(Xt) = α+βt d´epend de t. Nous stationnarisons le processus Xt en retranchant la valeur estim´ee par la m´ethode des moindres carr´es ordinaires ˆα+ ˆβt .
(b) Processus DS :
Un processus DS (differency stationary) avec d´erive s’´ecrit sous la fome : Xt = Xt−1 +β + εt. C’est une marche al´eatoire avec d´erive. Il s’agit d’un processus non stationnaire car :
E(Xt) = X0+βt ; V ar(Xt) = tσ2. Un processus DS sans d´erive s’´ecrit : Xt= Xt−1+εt. 2. Processus stationnaires :
(a) Processus Moyenne Mobile :
On appelle processus moyenne mobile d’ordre q M A(q), un processus Xt d´efini par :
Xt= µ+at+θ1at−1+. . .+θqat−q =µ+at+
q
X
j=1
θjat−j Avecat BB(0; σ2) et les θj sont des r´eels.
E(Xt) = µ;
γ(k) =
(σ2(θk+Pq−k
j=1θjθk+j) si 1≤k≤q
0 si k ≥q
La fonction de corr´elation permet d’indiquer si un processus est MA(q) ou pas.
Si Xt est un processus MA(q) alors :
ρ(k)6= 0 si 0≤k ≤q ρ(k) = 0 si k > q+ 1 (b) Processus Autoregressif :
On appelle processus autoregressif d’ordre p AR(p), un processus temporel Xt qui s’´ecrit sous la forme :
Xt = µ+ϕ1Xt−1+. . .+ϕpXt−p+at Avecat BB(0; σ2)
.
La fonction d’autocorr´elation d’un processus autoregressif est : ρ(k) =
p
X
j=1
ϕjρk−j ;k ≥1
Pour le processus AR(p), c’est la fonction d’autocorr´elation partielle qui nous permet d’indiquer si la s´erie est un AR(p).
3. Bruit Blanc :
Un processusXt est un bruit blanc (White Noise) si : E(Xt) = 0;
V ar(Xt) = σ2;
γ(k) = cov(Xt, Xt+k) = 0 pour k6= 0 . Nous notons :Xt ∼BB(0; σ2).
4. Mod`ele ARMA (p, q) :
La classe des mod`eles ARMA permet de combiner deux types de processus temporels : les processus autor´egressifs (AR), et les processus moyennes mobiles (MA). Dans les mod`eles ARMA, la valeur prise au temps t par la variable ´etudi´ee est une fonction lin´eaire de ses valeurs pass´ees et des valeurs pr´esentes ou pass´ees
La forme g´en´erale d’un processus ARMA (p, q) :
Xt−ϕ1Xt−1−. . .−ϕpXt−p= µ+at+θ1at−1+. . .+θqat−q Avecat est un bruit blanc.
5. Test de Dickey-Fuller :
Dickey et Fuller proposent un test qui permet de d´etecter la stationnarit´e d’une s´erie temporelle. En consid´erant une s´erie chronologique Xt, le test est bas´e sur l’hypoth`ese nulle de racine unitaire.
Il repose sur les hypoth`eses suivantes :
H0 : P rocessus non stationnaire, les f ormes de non stationnarit´e sont [1]Xt =ϕXt−1+at
[2]Xt =ϕXt−1+a+at [3]Xt=ϕXt−1+a+βt+at
ou ϕ` = 1 H1 : ϕ <1
Ces hypoth`eses peuvent encore s’´ecrire sous la forme suivante :
H0 :P rocessus non stationnaire, les f ormes de non stationnarit´e sont [1] ∆Xt = (ϕ−1)Xt−1+at
H0 :P rocessus non stationnaire, les f ormes de non stationnarit´e sont [1] ∆Xt =ρXt−1+at
[2] ∆Xt =ρXt−1+α+at [3] ∆Xt =ρXt−1+α+βt+at o`u ρ= ϕ−1 = 0 et at∼> iid(0, σ2)
H1: ρ <1
n
H0 : ρ = 0H1 : ρ <1 Par la m´ethode des moindres carr´es :
ˆ
La proc´edure de ce test repose sur le fait de faire une analyse successive des trois formes possibles de non stationnarit´e, c’est-`a-dire du mod`ele (3) au mod`ele (1) de la s´erie en question. Or, sous H0 vraie, le processus ´etudi´e est non stationnaire et l’estimateur de ρ ne suit pas une distribution normale et par la suite, le t-Student de ρ ne peut pas ˆetre compar´e aux valeurs critiques de la table de Student. C’est pourquoi Dickey et Fuller ont donc ´etudi´e la distribution asymptotique des estimateurs pour des ´echantillons de diff´erentes tailles.
Nous commen¸cons le test par l’analyse du mod`ele (3) et par une comparaison de la statistiquetρˆaux seuils tabul´es par Dickey et Fuller (sitρˆ> tDF nous acceptons H0).
Si l’hypoth`ese nulle ρ = 0 est rejet´ee, nous comparons le t-Student de l’estimateur de α aux valeurs critiques d´etermin´ees par Dickey et Fuller pour la tendance. Si la tendance n’est pas significative, nous poursuivons le test par l’analyse du mod`ele (2) et ainsi de suite.
6. Test de Dickey et Fuller augment´e (ADF) :
Dans le test de Dickey et Fuller simple que nous venons de pr´esenter, le processus at est par hypoth`ese un bruit blanc. Or il n’y a aucune raison que les r´esidus soient des bruits blancs (non corr´el´es). Le test de Dickey et Fuller Augment´e prend en consid´eration cette hypoth`ese (autocorr´elation des erreurs en proposant une repr´esentation AR(p-1) pour l’erreur).
Les hypoth`eses du test deviennent alors :
H0 :P rocessus non stationnaire, les f ormes de non stationnarit´e sont [1] ∆Xt =ρXt−1+Pp
1. Pr´esentation th´eorique de l’ACP : Introduction :
L’ACP, introduite par Karl Pearson et Thurston dans les ann´ees 1920, est une technique des statistiques descriptives destin´ee `a l’analyse des donn´ees multidimensionnelles.
Elle permet de r´eduire la dimension de l’espace des variables. On cherche `a r´eduire le nombre de variables avec le minimum de perte d’information et pr´eservant les relations existant d´ej`a entre les diff´erentes variables.
(a) Repr´esentation math´ematique :
On poss`ede un tableau rectangulaire de mesure (une matrice) dont les colonnes sont des variables (mensurations, taux, temp´eratures, ...) et dont les lignes repr´esentent des individus statistiques (unit´es ´el´ementaires telles que des ˆ
etres humains, des pays, des ann´ees ...). On note X ce tableau de donn´ees.
X : Tableau de donn´ees
Xij : Valeur de l’i`eme observation pour la j`eme variable
Xi. : i`eme observation du tableau
n : Effectif des individus
p : Nombre de variables
(b) Objectif :
Notre objectif est d’extraire l’essentiel de l’information contenue dans le tableau de donn´ees X et d’en fournir une repr´esentation se prˆetant plus ais´ement `a l’interpr´etation. Autrement dit, nous nous proposons de rechercher une repr´esentation des n individus dans un sous espace de l’espace initial.
Nous cherchons donc `a d´efinir k nouvelles variables, combinaison des p de l’espace initial, qui font perdre le moins d’information possible. Ces k variables seront appel´ees composantes principales et les axes qu’elles d´eterminent axes principaux.
(c) Rappels math´ematiques :
L’analyse du nuage de points utilise la notion fondamentale de distance. On munit l’espace des individus de la distance euclidienne classique.
On d´esigne par g le centre de gravit´e du nuage :
g est donc un vecteur de dimension p.
La matrice X est g´en´eralement centr´ee sur le centre de gravit´e :
On peut alors calculer les matrices de covariances et de corr´elations. En effet une fois la matrice X est transform´ee, il suffit de la multiplier par sa transpos´ee pour obtenir la matrice de variance-covariance si X est juste centr´ee, la matrice de corr´elation si X est centr´ee r´eduite, autrement dit norm´ee.
Ces deux matrices sont des matrices carr´ees de taille p, sym´etrique, et r´eelle.
Elles sont diagonalisables dans une base orthonorm´ee. Dans la suite nous noterons par X la matrice centr´ee ou celle centr´ee r´eduite.
(d) Principe d’ACP :
Le principe de l’ACP est de trouver un axe u, issu d’une combinaison lin´eaire des X.j , tel que la variance du nuage autour de cet axe soit maximale.
Nous cherchons donc le vecteur u tel que la projection orthogonale du nuage sur u ait une variance maximale. Soit C la matrice de covariance ou de corr´elation pr´ec´edemment calcul´ee. La projection de l’´echantillon des observations sur u s’´ecrit : πu(X) = X . u
La variance empirique de πu(X) vaut donc :
Comme nous l’avons vu plus haut C est diagonalisable dans une base orthonorm´ee, notons P la matrice de changement de base associ´ee et ∆ la matrice diagonale associ´ee. On obtient ainsi que :
∆ en ordre d´ecroissant. On peut rapidement v´erifier qu’il suffit de prendre le premier vecteur unitaire pour obtenir : vt.∆.v =λ1
On a donc que la diagonalisation de la matrice de corr´elation (ou de covariance si on se place dans un mod`ele non r´eduit), nous a permis d’´ecrire que le vecteur qui explique le plus d’inertie du nuage est le premier vecteur propre correspondant au vecteur propre de la plus grande valeur propre. De mˆeme le deuxi`eme vecteur qui explique la plus grande part de l’inertie restante est le deuxi`eme vecteur propre, etc. Finalement, la question de l’ACP se ram`ene donc `a un probl`eme de diagonalisation de la matrice de corr´elation.
(e) R´ecapitulation :
Observation g´eom´etrique de la r´eduction de dimension :