Estimation d’indices de stress financier à l’aide de
modèles espace-état
Mémoire
Cédric Noël
Maîtrise en économique
Maître ès arts (M.A.)
Québec, Canada
Estimation d’indices de stress financier à l’aide de
modèles espace-état
Mémoire
Cédric Noël
Sous la direction de:
Résumé
Le niveau de stress nancier peut être conceptualisé comme étant l'intensité des diérents troubles qui aectent un système nancier pour une période donnée. Il est possible d'estimer ce stress à travers le temps en se servant de données nancières, lorsque celles-ci sont susament informatives. La série de valeurs obtenue par cette estimation est appelée un indice de stress nancier. L'intérêt pour ces indices a été stimulé par les événements liés à la crise nancière de 2008, et tant les variables utilisées que la manière de les aggréger ont fait l'objet de plusieurs études depuis. Les deux méthodes d'aggrégation principalement utilisées sont la moyenne pondérée par variable et l'analyse par composantes principales. Dans les deux cas, le caractère temporel des données n'est pas pris en compte, ce qui peut avoir des répercussions sur la abilité des résultats. Pour inclure cette caractéristique dans l'estimation, le présent mémoire propose d'utiliser un modèle espace-état estimé par ltre de Kalman. De plus, une extension au ltre classique est développée pour mieux prendre en compte les particularités des données nancières. Des simulations permettent de montrer que, basé sur le critère de la racine de l'erreur quadratique moyenne, l'utilisation d'un modèle espace-état fournit des estimations généralement plus précises, même lorsqu'il y a erreur de spécication. Finalement, un indice de stress nancier est estimé à l'aide de données réelles, an de le comparer à un indice existant et d'illustrer certains usages des indices de stress nancier.
Abstract
The level of nancial stress can be conceptualized as the intensity of troubles that are aecting a nancial system for a given period. It is possible to estimate this stress through time by using nancial data, when these are suciently informative. The time series obtained through this estimation is called a nancial stress index. The interest for these indices has been stimulated by the 2008 crisis and both the variables to use and the way to aggregate them have been the subject of several studies since then. The two most frequently used agregation methods are the variable-weighted average and the principal component analysis. In both cases, the time aspect of the data is not taken into account, which can aect the reliability of the results. To include this time aspect in the estimation, the following dissertation proposes the use of a state-space model estimated through Kalman ltering. An extension to the classic lter is also developed to better account for the features of nancial data. Simulations show that, based on the root mean square error, the use of a state-space model gives more accurate estimates on average, even when there are specication errors. Finally, a nancial stress index is estimated from real data to allow for comparison with an existing index and to illustrate some uses of nancial stress indices.
Table des matières
Résumé iii
Abstract iv
Table des matières v
Liste des tableaux vii
Liste des gures viii
Remerciements ix
Introduction 1
1 Création d'indices de stress nancier 3
2 Principales méthodes d'agrégation pour la création d'indices de stress
nancier : forces et faiblesses 9
2.1 Modèle simple. . . 10
2.2 Méthode par moyenne . . . 11
2.3 Analyse par composantes principales . . . 12
2.4 Évaluation préliminaire de l'ecacité des méthodes présentées . . . 13
3 Modèles espace-état 18 3.1 Formulation sous la forme d'un modèle espace-état . . . 18
3.2 Filtre de Kalman . . . 20
3.3 Estimation des paramètres . . . 22
3.4 Extensions proposées . . . 22
4 Évaluation de l'ecacité des méthodes d'agrégation 28 4.1 Simulations sans erreurs de spécication . . . 28
4.2 Simulations avec erreurs de spécication . . . 31
5 Cas empirique 34 5.1 Données . . . 34
5.2 Estimation . . . 38
5.3 Modélisation de la croissance économique à l'aide d'indices de stress nancier 40
A Filtre de Kalman unscented 43
A.1 Détermination de points sigma . . . 43
A.2 Filtre . . . 44
B Résultats secondaires obtenus lors de l'estimation de l'indice de stress
nancier (ISF) du chapitre 5 45
C Résultats de modélisation de la croissance du produit intérieur brut
américain 50
D Sources des données utilisées 52
D.1 Chapitre 1. . . 52
D.2 Chapitre 2. . . 52
D.3 Chapitre 5. . . 53
Liste des tableaux
1.1 Comparaison de diérents indices de stress développés par les Banques fédérales
de réserve américaines . . . 5
2.1 Paramètres des processus de génération de données pour les simulations du
chapitre 2 . . . 14
4.1 Moyennes des racines des erreurs quadratiques moyennes pour les méthodes
d'agrégation étudiées dans le contexte de modèles sans erreurs de spécication . 28
4.2 Moyennes des racines des erreurs quadratiques moyennes pour les méthodes
d'agrégation étudiées dans le contexte de modèles avec erreurs de spécication. 32
4.3 Proportions des cycles de simulation pour lesquels la racine des erreurs quadra-tiques moyennes du modèle espace-état modié est inférieure à celle des autres
méthodes d'agrégation, dans le contexte de modèles avec erreurs de spécication 33
5.1 Statistiques descriptives des données utilisées pour l'estimation de l'ISF . . . . 36
5.2 Périodes où l'ISF indique un stress élevé à travers un test Z unilatéral à droite
au seuil de 0,05 . . . 39
5.3 Statistiques des meilleurs candidats pour la modélisation de la croissance
éco-nomique réelle par un modèle ARX . . . 40
B.1 Paramètres statiques obtenus lors de l'estimation de l'ISF . . . 45
C.1 Valeur AIC des diérents scénarios modélisés à la section 5.3 pour les ordres
Liste des gures
1.1 Évolution du St. Louis Financial Stress Index (STLFSI) de 1993 à 2018 . . . . 8
2.1 Évolution de certains taux d'intérêts nominaux aux États-Unis depuis 1953 . . 10
2.2 Distribution des racines des erreurs quadratiques moyennes de l'analyse facto-rielle et de la méthode par moyenne pour la simulation du modèle 2.1.1. avec
variances égales . . . 15
2.3 Distribution des racines des erreurs quadratiques moyennes de l'analyse facto-rielle et de la méthode par moyenne pour la simulation du modèle 2.1.1. avec
variances diérentes . . . 16
2.4 Distribution des racines des erreurs quadratiques moyennes de l'analyse
facto-rielle et de la méthode par moyenne pour la simulation du modèle augmenté . . 17
3.1 Diérence entre une variable latente et des estimations obtenues à l'aide d'un
modèle espace-état avec et sans ajustement pour des chocs exogènes non mesurés 25
4.1 Distribution des racines des erreurs quadratiques moyennes des trois méthodes
d'agrégation étudiées pour la simulation du modèle 2.1.1. avec variances égales 29
4.2 Distribution des racines des erreurs quadratiques moyennes des trois méthodes
d'agrégation étudiées pour la simulation du modèle 2.1.1. avec variances diérentes 30
4.3 Distribution des racines des erreurs quadratiques moyennes des trois méthodes
d'agrégation étudiées pour la simulation du modèle augmenté . . . 30
5.1 Visualisation des données utilisées dans la création de l'indice de stress nancier 37
5.2 Comparaison de l'ISF au STLFSI . . . 38
B.1 Composantes obtenues lors de l'estimation de l'ISF . . . 47
B.2 Coecients autorégressifs obtenus lors de l'estimation de l'ISF . . . 48
B.3 Évolution de 1 moins les p-value obtenues à partir des valeurs de l'ISF pour un
test Z unilatéral à droite au seuil de 0,05 . . . 49
C.1 Prédictions intra-échantillon de la croissance économique selon quatre modèles
Remerciements
Je tiens à remercier mes parents, Lyne et Jocelyn, pour leur soutien indéfectible et leur patience sans borne.
Je remercie mes amis proches, qui m'ont fréquemment fourni la motivation nécessaire pour persévérer.
Introduction
Dans la foulée de la crise nancière de 2008, la surveillance en continu de l'état des systèmes nanciers est un sujet qui s'est imposé au devant de la scène. Les économistes ont tenté de répondre à ce besoin d'information en élaborant plusieurs outils de mesure, dont les indices de stress nancier. Ce mémoire cherche à enrichir la littérature au sujet de ces derniers. Tout d'abord, il convient d'introduire le concept de stress nancier. Il en existe plusieurs dénitions plus ou moins semblables. Il est peut-être plus évident d'aborder ce concept en le décrivant d'après ses signes. Dans cette optique, l'un des premiers articles sur la création d'indices de stress nancier le décrit comme suit.
Stress increases with expected nancial loss, with risk (a widening in the distri-bution of probable loss), or with uncertainty (lower condence about the shape of the distribution of probable loss).
Illing et Liu(2006)
C'est dire que, plus le stress nancier est présent, plus les transactions nancières sur les marchés comportent des inconvénients potentiels. En d'autres mots, un niveau de stress élevé diminue l'ecacité des mécanismes d'interaction nancière. Étant donné le rôle de courroie de transmission qu'occupent les marchés nanciers, on peut s'attendre à ce que des dérèglements d'ampleur susante puissent déborder vers l'économie réelle. La crise nancière de 2008 ainsi que ses retombées en sont un exemple récent. On peut donc percevoir le stress nancier comme un phénomène pouvant non seulement nuire à la santé d'un système nancier, mais aussi à la vigueur d'une économie dans son ensemble.
L'étude du stress nancier peut ainsi être pertinente pour grand nombre d'économistes. Mais le concept lui-même est une abstraction, et une abstraction est dicile à étudier en pratique. C'est pourquoi on tente d'obtenir des mesures de ce concept, qu'on appelle des indices de stress nancier. Ces dernières sont des séries temporelles construites à partir de données que l'économiste établit comme étant liées au concept de stress nancier.
Les indicateurs utilisés reètent le comportement des marchés nanciers et incluent notam-ment des taux d'intérêt, des écarts de taux d'intérêt et des indices de volatilité. Les indices
de stress nancier renseignent donc sur la part du niveau de stress qui est perceptible à tra-vers le comportement des acteurs nanciers. Pour tenter de détecter des problèmes ayant des conséquences moins immédiates sur les marchés nanciers, il est préférable de se tourner vers des modèles plus sophistiqués.
Les indices de stress nancier condensent l'information qu'un ensemble d'indicateurs nanciers apporte quant au niveau de stress. Ils permettent de visualiser l'évolution du niveau de stress à travers le temps et de comparer la situation contemporaine à des événements historiques connus. Cela favorise la mise en place de politiques appropriées quant à l'état des marchés. Les indices de stress nancier fournissent également de l'information quantitative qui peut être exploitée dans des modèles statistiques.
Pour toutes ces raisons, la création d'indices de stress nancier a avantage à être menée rigoureusement. Ce mémoire cherche à contribuer à la littérature en ce sens.
Le premier chapitre eectue un survol de la littérature sur la création d'indices de stress nancier. Le deuxième chapitre expose certaines faiblesses des indices répertoriés. Le troisième chapitre développe une approche visant à amenuiser ces faiblesses. Le quatrième chapitre éprouve l'approche suggérée dans un cadre de simulations. Le cinquième chapitre illustre un indice créé à l'aide de l'approche suggérée et en fait l'analyse.
Chapitre 1
Création d'indices de stress nancier
Les indices de stress nancier sont des outils permettant aux décideurs politiques d'obtenir une vue d'ensemble du niveau de stress nancier. Bien maîtrisés, ces outils peuvent favoriser la bonne conduite des politiques en permettant de prendre du recul quant à la situation contemporaine des marchés. C'est que, même s'il peut être évident que certaines périodes sont caractérisées par un niveau de stress nancier élevé, il peut être dicile d'en évaluer l'ampleur lorsqu'elles sont en cours. Un indice de stress nancier permet de comparer la situation actuelle à des événements historiques qui ont pu être étudiés en profondeur.
Relativement à un indicateur nancier considéré individuellement, les indices de stress -nancier possèdent plusieurs avantages. Ils permettent notamment de condenser ou d'agréger l'information contenue dans un nombre potentiellement élevé d'indicateurs, ce qui facilite l'in-terprétation des données. De plus, l'utilisation simultanée de plusieurs indicateurs peut fournir une estimation plus précise du niveau de stress nancier, dans la mesure où chacun des indi-cateurs ne dépend pas uniquement du niveau de stress. Par exemple, certains taux d'intérêt peuvent contenir de l'information à propos du stress, mais ils sont également aectés par d'autres facteurs comme le taux d'ination anticipé et la productivité marginale du capital. En exploitant les comouvements d'indicateurs pertinents, on peut obtenir une mesure plus systémique du stress nancier.
Le regroupement de diérents indicateurs dans un unique indice permet également de prendre en compte le fait que des indicateurs nanciers peuvent dèlement reéter le niveau de stress nancier pour certaines périodes, mais moins bien pour d'autres. En termes statistiques, la corrélation entre chaque indicateur et le stress n'est pas forcément constante dans le temps. Par exemple, les marchés hypothécaires ont été au coeur de la crise nancière de 2008, mais ceux-ci sont très peu liés à l'éclatement de la bulle internet, au tournant des années 2000. En utilisant des indicateurs individuellement, il peut être dicile de déterminer lesquels sont pertinents pour quelles périodes.
l'écono-mètre. Si, par exemple, l'objectif est de déterminer l'impact de l'état des marchés nanciers sur l'ecacité d'une politique scale donnée, il faut des données quant à l'état des marchés nanciers, et un indice de stress nancier peut occuper ce rôle. De manière générale, un indice able permet d'obtenir de l'information quantitative sur la santé des marchés, alors que cette dimension n'est pas directement mesurable.
De manière encore plus ambitieuse, un indice de stress nancier susamment précis pourrait représenter un apport notable dans le cadre de modèles visant à prévoir les crises nancières. Cela n'est pas le but premier des indices de stress nancier, mais tout modèle prévisionnel peut faire usage de données issues de la situation contemporaine, comme le font les indices de stress. Cela dit, ces derniers peuvent être perçus comme étant prédictifs pour les performances de l'économie en général, dans la mesure où des conditions nancières défavorables peuvent inuer négativement sur les interactions entre les acteurs économiques. Mais avant d'en arriver à utiliser les indices de stress nancier dans ce type de contexte, plusieurs décisions sont nécessaires à leur construction.
Comme il a été mentionné dans l'introduction, beaucoup de données orent de l'information pouvant être potentiellement utilisée dans la création d'un indice de stress nancier. Une revue de littérature sur les indices de stress nancier pour les États-Unis répertorie plus d'une centaine d'indicateurs uniques utilisés dans onze des indices de stress nancier les plus cités (Kliesen et al., 2012). Du lot, deux indicateurs sont fréquemment utilisés. Le premier est le Treasury Bill Eurodollar spread (l'écart TED), un indicateur reétant l'avis que les banques ont de la solidité des autres banques, et qui informe donc sur le risque de défaut de paiement des prêts entre les banques. Le second est le CBOE Volatility Index (VIX), un indicateur de la volatilité des options du S&P 500 qui fournit une mesure de l'incertitude du marché quant aux prix des actifs. La grande majorité des autres indicateurs ne sont utilisés que dans la création d'un ou deux indices chacun. Les possibilités de combinaisons sont donc immenses, d'autant plus que ces variables ne constituent pas un ensemble exhaustif des données nancières envisageables. Le tableau1.1illustre l'hétérogénéité qui peut être présente quant au nombre et à la fréquence des variables utilisées pour construire un indice de stress nancier1.
Un niveau de complexité additionnel dans le choix des données s'ajoute suivant le fait que, dépendant du marché pour lequel on tente de créer un indice, la disponibilité des variables puisse varier. Par exemple, pour créer le Composite Indicator of Systemic Stress pour les marchés nanciers européens (CISS), les auteurs ont dû tenir compte du fait que toutes les données ne sont pas disponibles pour tous les pays (Hollo et al., 2012). Le même genre de considérations s'applique pour la fréquence de publication des variables.
1. L'un des indices mentionnés dans le tableau 1.1, le NFCI, est un indice de conditions nancières. La principale diérence avec les indices de stress nancier est l'inclusion de variables qui ne se limitent pas strictement aux marchés nanciers. Étant donné que ce sont les données et non les méthodes d'agrégation qui diérencient les deux types d'indices, la distinction n'est pas évoquée dans le reste de ce mémoire et le terme d'indice de stress nancier englobe les indices de conditions nancières.
Tableau 1.1 Comparaison de diérents indices de stress développés par les Banques fédérales de réserve américaines
Sigle Variables Fréquence Banque fédérale Publication associée de réserve de
CFSI 11 Quotidien Cleveland (Oet et al.,2011)
STLFSI 18 Hebdomadaire St. Louis (Kliesen et Smith,2010) NFCI 100 Hebdomadaire Chicago (Brave et Butter,2011) KCFSI 11 Mensuel Kansas City (Hakkio et Keeton,2009) Même si toutes les données souhaitées sont disponibles, les variables pertinentes ne sont pas forcément les mêmes d'un pays à l'autre. Dans le papier expliquant la création du Kansas City Financial Stress Index (KCFSI), il est avancé que l'impact des marchés des changes sur les marchés nanciers nationaux n'est pas le même dans une petite économie ouverte comme le Canada que dans une économie comme celle des États-Unis (Hakkio et Keeton,2009). Pour toutes ces raisons, il peut être dicile de déterminer quelles variables utiliser. La diculté s'accentue lorsque l'on se retrouve dans un cadre académique et qu'il faut tenter de justier le choix des variables. En fait, le problème n'est peut-être pas tant que l'on doive fournir des justications, le problème est de trouver sur quelle base le faire, puisqu'il n'existe pas de série de référence sur laquelle se er.
Pour relier le choix des variables à des concepts économiques concrets, il est courant dans la littérature d'associer le choix des variables à des secteurs nanciers précis (Illing et Liu,2006;
Hollo et al., 2012; Oet et al., 2011). Le secteur bancaire, les marchés du crédit, les marchés boursiers et les marchés des changes sont généralement les secteurs utilisés. Certains autres indices sont formés en se basant sur le concept des types de risques, surtout les risques de défaut de paiement et de liquidité (Kliesen et Smith,2010;Hakkio et Keeton,2009).
Il demeure que ces cadres ne permettent pas vraiment de formaliser le choix des variables, ce sont des diérences conceptuelles qui ont peu d'application pratique, du moment que l'on est déjà convaincu de la pertinence d'une indice de stress nancier. C'est en partie la raison pour laquelle ce mémoire ne porte pas (principalement) sur le choix des variables à utiliser, bien que cet aspect soit d'une importance capitale.
L'autre aspect de la création d'un indice de stress nancier qui peut être exploité dans un cadre de recherche est la méthode d'agrégation des variables. C'est sur cet aspect que ce mémoire se concentre en priorité. D'une part parce que l'utilisation de statistiques théoriques et appliquées permet d'évaluer les méthodes d'agrégation dans un cadre relativement formel. D'autre part parce que, si l'évaluation de ces méthodes mène à des conclusions claires, elle pourrait renseigner sur les caractéristiques qui devraient être recherchées lors du choix des variables.
unités de mesure comparables. Pour reprendre les indicateurs mentionnés plus tôt, il n'y a pas de raisons pour qu'une variation d'une unité de l'écart TED ait la même importance qu'une variation d'une unité du VIX. En les agrégant directement, il y aurait un risque de donner un poids plus élevé à la variable avec les valeurs absolues les plus élevées, même si la quantité d'information exploitable n'est pas forcément plus grande. La technique la plus simple et la plus fréquemment employée est de standardiser les variables en soustrayant leur moyenne et en les divisant par leur écart-type (Kliesen et Smith,2010;Hakkio et Keeton,2009;Brave et Butter, 2011). D'autres indices vont un peu plus loin dans leur standardisation en se basant sur la fonction de densité cumulative empirique des variables (Oet et al., 2011; Hollo et al.,
2012). Dans tous les cas, l'objectif est de permettre la comparaison de diérentes variables en faisant en sorte que chaque variable n'indique du stress que si elle se trouve à un niveau élevé, relativement à ses valeurs historiques.
Après avoir standardisé les variables, il faut déterminer la manière de les agréger. Dans l'en-semble, les méthodes d'agrégation reviennent à utiliser une somme pondérée de toutes les variables. La diérence entre les techniques provient de la détermination des pondérations appliquées à chaque variable.
Une première méthode envisageable consiste à accorder un poids égal à toutes les variables. C'est la manière la plus simple de pondérer, ce qui présente l'avantage d'être facile à com-prendre et à expliquer. Cette méthode ne considère toutefois pas la possibilité que les indica-teurs puissent contenir du bruit statistique et qu'ils puissent évoluer selon d'autres facindica-teurs que le stress nancier ; l'indice résultant risque donc d'être dicile à interpréter avec abilité. La technique n'exploite pas explicitement les corrélations qui peuvent exister entre les indica-teurs. Il est aussi reproché à cette méthode d'agrégation de manquer d'intuition économique et d'implicitement accorder plus de poids aux secteurs du système nancier pour lesquels plus de variables ont été choisies (Oet et al.,2011). En général, les institutions choisissent d'autres méthodes d'aggrégation. Par exemple, la Banque de Suède a déjà utilisé cette technique pour construire un indice de stress nancier (Forss Sandahl et al., 2011) mais s'est depuis tournée vers un procédé plus sophistiqué (Johansson et Bonthron,2013).
Une autre méthode d'agrégation pondère chaque variable selon l'importance du secteur nan-cier qu'elle représente en termes de taille du crédit par rapport au crédit sur l'ensemble des marchés nanciers (Illing et Liu, 2006). Une méthode analogue utilise les ux nanciers des secteurs pour un trimestre donné, en proportion des ux nanciers pour l'ensemble des sec-teurs (Oet et al., 2011)2. Les auteurs des deux recherches précédemment citées construisent
un indice de stress nancier en tentant de comparer l'ecacité de diérentes techniques, et en arrivent à la conclusion que les méthodes qu'ils mettent de l'avant étaient les meilleures. Par rapport à une somme à poids égaux, la méthode présente l'avantage de s'arrimer à la théorie économique, et par le fait même d'agir comme ltre face à des variations des
riables qui ne sont pas attribuables à du stress nancier. De plus, cette méthode permet aux pondérations de changer dans le temps, ce qui est un aspect important pour s'assurer de la pertinence contemporaine des indicateurs. Puisque les poids sont attribués par période, il est également possible de constituer un indice en utilisant des variables ayant des observations débutant à des dates diérentes, opération qui est plus dicile avec d'autres méthodes. Ces caractéristiques reposent sur l'hypothèse que la pertinence des indicateurs est fortement liée à l'importance des ux nanciers de leur secteur respectif. Si cette hypothèse ne tient pas, des problèmes risquent d'apparaître. Ce peut par exemple être le cas si des défaillances dans certains secteurs font diminuer le niveau de crédit dans ceux-ci à moyen terme. Dans ce cas, les secteurs en diculté auraient moins d'impact sur l'indice que les secteurs bien portants, ce qui pourrait masquer le signal d'augmentation du stress.
D'autres indices sont créés à l'aide de l'analyse par composantes principales (ACP) (Kliesen et Smith, 2010; Hakkio et Keeton, 2009). Même lorsque la technique n'est pas ultimement retenue pour créer un indice de stress, elle est fréquemment considérée (Illing et Liu, 2006;
Oet et al., 2011). L'ACP est une technique permettant d'estimer des pondérations qui pro-viennent de l'optimisation d'une contrainte statistique basée sur la (co)variance. L'hypothèse identiante de l'ACP, dans le contexte d'un indice de stress nancier, est que le comouvement des variables permet de faire ressortir le niveau latent du stress. Intuitivement, les séries qui covarient sont les plus à même d'envoyer un signal able que les marchés nanciers sont à un niveau de stress donné. Le fait d'opérer à l'intérieur d'un cadre statistique explicite ore la possibilité de justier de manière relativement formelle les décisions prises lors de la mise sur pied d'un indice de stress nancier. Par rapport à une somme à poids égaux, l'ACP permet à l'indice de mieux reéter les changements pertinents dans les données en évacuant une part de bruit statistique. Contrairement aux deux méthodes précédentes, l'ACP permet de prendre en compte explicitement le comouvement des variables.
Les inconvénients de l'ACP font partie du sujet du prochain chapitre, mais on peut indiquer dès maintenant que, dans le contexte des indices de stress, cette méthode est critiquée pour son manque d'interprétation économique claire et pour la rigidité des pondérations estimées, puisqu'elles sont statiques (Oet et al.,2011). Ce dernier point est au coeur des préoccupations reétées par ce mémoire.
Il existe des travaux appliquant des méthodes d'agrégation plus complexes. Le CISS, mentionné plus haut, est construit en créant des sous-indices par moyenne arithmétique qui sont ensuite agrégés en utilisant des principes de la théorie moderne du portefeuille (Hollo et al., 2012). Une autre recherche utilise l'analyse par composantes principales par noyau, une variante non linéaire de l'ACP (Morin,2014). La Banque fédérale de réserve de Chicago adopte un modèle à facteurs dynamiques qui est en quelque sorte une version plus sophistiquée de l'ACP (Brave et Butter, 2011). Cette technique peut s'exprimer sous la forme d'un modèle espace-état et présente plusieurs similitudes avec la méthode qui est décrite au chapitre3du présent mémoire.
Figure 1.1 Évolution du St. Louis Financial Stress Index (STLFSI) de 1993 à 2018 À des ns d'illustration, un exemple d'indice de stress nancier utilisant l'ACP est présenté dans la gure1.1: le St. Louis Financial Stress Index (STLFSI). C'est un indice fréquemment mentionné dans la littérature. Au moment d'écrire ces lignes, le STLFSI est le premier résultat qui est retourné par Google en recherchant Financial stress index , et la Banque fédérale de réserve de St. Louis mentionne le STLFSI sur sa page d'accueil, dans l'encadré Economic Snapshot . On peut apercevoir un pic lors du sommet de la crise nancière de 2008, ainsi qu'un autre pic correspondant à la crise nancière russe de 19983. Ce sont le genre d'observations
qu'un indice de stress nancier permet de faire aisément.
3. La crise nancière russe de 1998 a notamment eu un impact sur les marchés américains à travers le fonds d'investissement spéculatif Long-Term Capital Management (LTCM), qui a subi de lourdes pertes à la suite de cette crise.
Chapitre 2
Principales méthodes d'agrégation
pour la création d'indices de stress
nancier : forces et faiblesses
Les systèmes nanciers peuvent subir d'importants changements, qu'ils soient soudains ou graduels. Par exemple, on peut voir dans la gure 2.1 que les taux d'intérêt nominaux aux États-Unis ont atteint dans les années 80 des sommets sans commune mesure avec ceux ob-servés pour toute autre période. On peut également observer que les taux ont atteint, suivant la crise nancière de 2008, des niveaux parmi les plus bas enregistrés depuis 50 ans.
Plusieurs événements majeurs ont aecté les marchés nanciers : le Krach de 1929, les chocs pétroliers de 1973 et 1979 ou la crise nancière de 2008, pour n'en nommer que quelques-uns. En particulier, les deux premiers événements mentionnés ont été associés à des changements structurels dans le comportement de plusieurs variables macroéconomiques d'importance ( Per-ron,1989).
D'un point de vue plus général, de nombreux travaux se sont intéressés au caractère changeant des marchés nanciers et des séries macroéconomiques dans un contexte économétrique (Akella et Chen,1990;Hsieh, 1991; Stock et Watson, 1996; Perron, 1997;Andreou et Ghysels,2002;
Chaudhuri et Wu,2003;Sensier et van Dijk,2004;Ang et Timmermann,2012). La littérature est beaucoup trop étendue pour espérer citer toutes ses contributions ici.
Étant donné les changements structurels pouvant aecter les marchés nanciers, il serait lo-gique d'utiliser des méthodes statistiques qui peuvent prendre ces changements en compte. Le présent chapitre présente un cadre statistique permettant l'évaluation de certaines des mé-thodes d'agrégation utilisées pour construire les indices de stress nancier qui ont été mention-nés au chapitre1. Ce cadre est d'abord introduit dans le contexte d'un processus stationnaire, et l'aspect des changements temporels est abordé par la suite, au chapitre 4. Les techniques
Figure 2.1 Évolution de certains taux d'intérêts nominaux aux États-Unis depuis 1953 utilisant la taille du crédit des secteurs nanciers ne sont pas évaluées dans ce mémoire, puis-qu'elles reposent sur des principes économiques diciles à analyser dans un cadre purement statistique.
2.1 Modèle simple
On peut présenter le problème de la création d'un indice de stress nancier comme étant un problème de facteurs communs. Dans ce cas, chaque indicateur utilisé dans la construction de l'indice apporte de l'information par rapport à la variable latente qu'est le niveau de stress nancier. De manière minimalement simple, le modèle pourrait ressembler à ce qui suit. La variable latente s est une série autorégressive d'ordre 11 telle que :
st= βst−1+ εt, εt∼ N (0, σ2s) i.i.d. , (2.1)
où t indique l'une des T périodes et εt est un choc aléatoire. β est compris dans l'intervalle
ouvert entre 0 et 1.
1. L'ensemble des modèles présentés dans ce mémoire se limite à un ordre d'autorégression d'ordre 1. La raison en est que cela est susant pour répliquer plusieurs caractéristiques des séries temporelles. La complexité supplémentaire des ordres supérieurs n'ajoute rien aux points centraux de ce mémoire. Néanmoins, pour des applications empiriques, il importe de garder en tête que l'estimation de processus autorégressifs d'ordres plus élevés peut être pertinente pour modéliser dèlement le comportement des données.
Les variables observées zk sont des mesures imparfaites de la variable latente s telles que :
zt,k = lkst+ ωt,k, ωt,k ∼ N (0, σk2) i.i.d. , (2.2)
où zt,k est l'une des N variables observées au temps t et ωt,k est un choc aléatoire associé
à zt,k. lk est un coecient permettant de transformer la valeur st, de l'espace latent vers
l'espace observé. Il peut être interprété comme un facteur d'échelle permettant de comparer des valeurs dans des unités diérentes. Dans les équations (2.1) et (2.2), εtet chacun des ωt,k
sont indépendants.
2.2 Méthode par moyenne
Il est possible de tenter d'estimer la variable latente s du modèle de la section 2.1à l'aide de la moyenne. Calculons le biais d'un estimateur qui consisterait en la moyenne de toutes les variables observées pour une période donnée. On aurait alors
B(ˆst) = E N P k=1 (zt,k) N − st= E N P k=1 (lkst+ ωt,k) N − st. (2.3) Le dénominateur peut être sorti de l'opérateur d'espérance puisqu'il est constant. On sépare les termes de variable latente et de chocs aléatoires pour obtenir
1 NE N X k=1 (lkst+ ωt,k) ! − st= 1 N E( N X k=1 lkst) + E( N X k=1 ωt,k) ! − st. (2.4)
Or, lket stsont des constantes qui peuvent être sorties de l'opérateur d'espérance. stpeut
éga-lement être sortie de la sommation. Étant donné que ωt,k provient d'une distribution normale
centrée à zéro, son espérance est nulle et on a 1 N st N X k=1 lk+ E( N X k=1 ωt,k) ! − st= 1 N st N X k=1 lk ! − st. (2.5) An de se débarasser de la sommation restante, on peut modier l'équation en utilisant la moyenne de lk à travers les k variables (dénotée ˜l). On peut ensuite simplier de telle sorte
qu'on obtient
N
Nst˜l − st= st(˜l − 1) . (2.6) Donc la méthode par moyenne n'est pas biaisée si ˜l= 1, alors qu'elle présente un biais du même signe que stsi ˜l> 1, et du signe contraire si ˜l< 1. Cela dit, le biais espéré pour l'ensemble des
observations est nul. En eet, puisque l'équation 2.1 ne contient pas de constante, E(s) = 0. En prenant l'espérance de 2.6pour l'ensemble des observations, on a donc
Il est donc possible d'utiliser la méthode par moyenne pour estimer la variable latente, tout en gardant cette nuance en tête. Il faut noter que les chocs aléatoires ωt,k n'apparaissent
pas dans l'équation 2.7. Celle-ci est donc obtenue peu importe si les variances de ces chocs sont constantes à travers k. Dans le cas des données nancières, les variances pourraient certainement ne pas être les mêmes pour tous les indicateurs ; cela représenterait notamment le cas où certains indicateurs contiennent une information de meilleure qualité que d'autres relativement au niveau de stress nancier. Dans ce cas, la méthode par moyenne ne serait pas optimale, puisqu'elle ne discrimine pas les variables sur la base de leur valeur informative. Un ˜
l diérent de un a des eets similaires à une augmentation de la variance des chocs wt,k sur
la précision de l'estimation, étant donné l'eet du biais présenté en 2.6.
2.3 Analyse par composantes principales
L'analyse par composantes principales (ACP) ne fait pas l'hypothèse d'un processus statis-tique sous-jacent comme celui présenté dans la section2.1(Kim,2008). L'inconvénient de cette caractéristique est que les composantes estimées par ACP sont des créations purement statis-tiques qui ne peuvent s'interpréter comme des variables provenant d'un modèle. Il en découle que l'ACP ne constitue pas un cadre conceptuel approprié pour ce mémoire, qui analyse la performance des méthodes d'agrégation utilisées pour la création d'indices de stress nancier. Heureusement, il existe une technique proche de l'ACP qui peut remplir ce rôle.
L'analyse factorielle2tente de décrire des variables observées en fonction de variables latentes,
qu'on appelle des facteurs (de Winter et Dodou,2016). L'analyse factorielle se base sur des équations similaires à celles de l'équation (2.2). Malgré les diérences conceptuelles entre l'analyse par composantes principales et l'analyse factorielle, les deux méthodes fournissent souvent des résultats similaires dans la pratique (Ogasawara,2000). Certains décrivent même l'analyse par composantes principales comme étant un cas particulier d'analyse factorielle (Gorsuch, 1990), bien que cela ne soit pas un point de vue partagé par tous (Fabrigar et al.,
1999).
Conceptuellement, l'analyse factorielle résout le type de système d'équations qui suit3. Les
variables observées zksont des combinaisons linéaires des variables latentes (facteurs) sj telles
que :
zt,k= lk,1st,1+ lk,2st,2+ ... + lk,Jst,J + ωt,k, ωt,k∼ N (0, σ2k) i.i.d. , (2.8)
où st,j, j = 1...Jest la valeur au temps t des J facteurs et les lk,jsont les loadings correspondant
à la pondération de chaque facteur dans chaque variable observée.
2. Pour être plus précis, ce mémoire fait référence à l'analyse factorielle exploratoire, qui partage certaines caractéristiques avec l'ACP. L'analyse factorielle conrmatoire est un autre type d'analyse factorielle qui se concentre sur les tests d'hypothèse. Ce type d'analyse n'est pas abordé dans ce mémoire.
Trois hypothèses additionnelles sont eectuées : 1. L'espérance des facteurs s est nulle 2. Les facteurs sont indépendants entre eux
3. Les chocs aléatoires ωt,k sont indépendants entre eux et sont indépendants des facteurs
S'il n'y a qu'un seul facteur à extraire, on se retrouve alors avec une équation équivalente à l'équation (2.2). On remarque que la première hypothèse est respectée par le modèle présenté en 2.1 étant donné qu'il n'y a pas de terme constant dans l'équation (2.1). La deuxième hypothèse est satisfaite également, étant donné qu'il n'y a qu'un seul facteur. La troisième hypothèse est respectée étant donné l'indépendance de εtet des ωt,k. Pour ces raisons, on peut
s'attendre à ce que l'analyse factorielle soit ecace avec des données générées selon le modèle présenté en 2.1.
Dans les cas de l'estimateur par moyenne et de l'analyse factorielle, l'équation (2.1) n'est pas directement utilisée. Cela réète le fait que pour ces deux méthodes, il n'est pas nécessaire de connaître le processus de génération de la variable latente, du moment que la deuxième hypothèse soit respectée. Il sut de connaître l'équation qui relie la variable latente aux variables observées. Il n'y a donc pas réellement de risque de mal spécier le processus de génération de la variable latente, ce qui peut être un avantage lorsque le processus par lequel cette variable latente évolue est inconnu. Cependant, si ce processus est connu, il existe des techniques qui permettent d'utiliser cette information et d'obtenir de meilleures estimations de la variable latente au sens de l'erreur quadratique moyenne. Une telle technique est présentée au chapitre 3.
2.4 Évaluation préliminaire de l'ecacité des méthodes
présentées
La création d'un indice de stress nancier se fait avec des données observées pour lesquelles on ne connaît pas avec certitude le processus de génération de données. Il est donc dicile de mener l'évaluation statistique de l'exactitude de l'indice. Cependant, on peut comparer l'ecacité des méthodes d'agrégation en simulant plusieurs scénarios hypothétiques. Le modèle simple décrit dans la section 2.1peut faire oce de scénario d'introduction à cette technique de simulation, qui est utilisée à répétition dans ce mémoire.
Le processus de simulation se décrit comme suit. La première étape est de simuler des données conformes au modèle spécié. La deuxième étape est d'estimer la variable latente à l'aide des méthodes d'agrégation que l'on désire examiner. La troisième étape est de calculer la racine
Tableau 2.1 Paramètres des processus de génération de données pour les simulations du chapitre 2
Paramètre(s) Modèle
Variances égales Variances diérentes Augmenté
σs2 1 1 1 β 0,95 0,95 0,95 σk2 [4, 4, 4, 4, 4] [8, 8, 2, 2, 2] [2, 2, 2, 2, 2] lk [1, 1, 1, 1, 1] [0,7, 0,85, 1, 0,85, 0,7] [0,7, 0,85, 1, 0,85, 0,7] σk20 - - [1, 1, 1, 1, 1] ρk - - 0,90
*Chaque ensemble de données simulé contient 800 observations (T=800) et cinq variables (N=5)
de l'erreur quadratique moyenne (REQM) pour chaque méthode4. Il faut ensuite répéter
ces étapes un grand nombre de fois pour obtenir un échantillon permettant de comparer les méthodes avec un niveau de conance susamment élevé.
Pour la première simulation, le modèle de la section2.1est utilisé comme processus de généra-tion de données. Les paramètres du modèle sont spéciés dans la colonne Variances égales du tableau 2.1. 1000 cycles de simulation sont eectués. La gure 2.2présente la distribution estimée des REQM pour les deux méthodes évaluées. On peut voir que les deux distributions se chevauchent presque parfaitement. La conclusion à en tirer est que, dans le cas simple où les variances des termes ωt,k sont toutes égales entre elles, la méthode par moyenne et
l'ana-lyse factorielle fournissent des résultats très similaires. La moyenne des REQM pour chacune des deux méthodes est de 0,284, lorsque arrondie à trois décimales. La méthode par moyenne ore de meilleurs résultats 76,3% du temps. Cette légère diérence s'explique par le fait que l'analyse factorielle doit estimer numériquement les coecients lk, alors que la méthode par
moyenne est équivalente à les contraindre à être égaux à un, ce qui est exact pour ce cas précis. Il convient ensuite d'étudier ce qui se produit lorsque les variances ne sont pas égales entre elles. Une autre séquence de simulation est eectuée, avec les modications à σ2
k et à lk indiquées
dans la colonne Variances diérentes du tableau2.1. La gure2.3illustre les résultats. On s'aperçoit que la moyenne des REQM avec l'analyse factorielle (0,284) est plus basse que celle avec la méthode par moyenne (0,337). La moyenne des REQM pour l'analyse factorielle est donc 84% de celle de sa méthode concurrente. En fait, sur les 1000 cycles de simulation, la méthode par moyenne n'est jamais plus ecace que l'analyse factorielle. Cela s'explique par le fait que cette dernière est capable d'identier que certaines variables observées orent une information de meilleure qualité pour l'identication de la variable latente. Ces variables plus informatives se voient octroyer un poids plus élevé que les autres.
Avec les simulations précédentes, on s'aperçoit que l'analyse factorielle peut fournir des
résul-4. Étant donné que les composantes obtenues par l'ACP ne sont pas à la même échelle que la variable latente simulée, tant les estimations que la variable latente sont standardisées pour le calcul de la REQM.
Figure 2.2 Distribution des racines des erreurs quadratiques moyennes de l'analyse fac-torielle et de la méthode par moyenne pour la simulation du modèle 2.1.1. avec variances égales
tats intéressants dans un modèle comme celui présenté en 2.1. Mais qu'en est-il si la valeur informative des variables observées n'est pas constante à travers le temps ? Une extension possible consiste à ajouter des chocs aléatoires autorégressifs qui sont idiosyncratiques pour chaque variable observée. Par rapport au modèle présenté à la section 2.1, il y a donc N variables latentes qui sont ajoutées :
bt,k= ρkbt−1,k+ εt,k, εt,k ∼ N (0, σ2
0
k) i.i.d. , (2.9)
où ρkest le coecient autorégressif associé à la variable k. Ce sont des processus autorégressifs
d'ordre 1, analogues à l'équation (2.1) pour la variable latente s. Cette dernière se décrit de la même manière qu'auparavant. Les équations pour les variables observées prennent maintenant la forme :
zt,k= lkst+ bt,k+ ωt,k, ωt,k∼ N (0, σk2) i.i.d. , (2.10)
où la seule diérence avec l'équation (2.2) est donc l'ajout du terme bt,k.
Le caractère autorégressif de ces chocs aléatoires permet de les interpréter comme des dé-viations persistentes de la valeur informative des variables observées. Ce nouveau système d'équations est appelé modèle augmenté dans le reste de ce mémoire.
Figure 2.3 Distribution des racines des erreurs quadratiques moyennes de l'analyse fac-torielle et de la méthode par moyenne pour la simulation du modèle 2.1.1. avec variances diérentes
Pour la simulation associée à celui-ci, les paramètres sont indiqués dans la colonne Aug-menté du tableau2.1. Les valeurs de lk sont les mêmes que pour la simulation avec variances
diérentes. La gure 2.4 illustre les résultats. On remarque que les deux méthodes se res-semblent à nouveau énormément, avec une valeur de REQM moyenne de 0,438 pour l'analyse factorielle et de 0,441 pour la méthode par moyenne, ce qui représente une diérence de moins de 1%. L'analyse factorielle est plus ecace 64,0% du temps. Ces résultats s'expliquent par le fait que, sur l'ensemble des périodes, la valeur informative de chacune des variables observées est similaire, même si cela n'est pas nécessairement vrai au niveau local. C'est que l'ordre des données n'importe pas à l'analyse factorielle, cette méthode ne peut donc pas détecter ce type de situation. Par opposition, une technique prenant en compte le caractère temporel des données pourrait tirer avantage de cette caractéristique pour raner son estimation de la variable latente. Cette idée est exploitée au chapitre 3.
Le fait que les coecients estimés lors de l'analyse factorielle soient statiques apporte un inconvénient supplémentaire pour le cas des indices de stress nancier. C'est que, dans la mesure où un seul facteur est estimé et que chaque variable ne se voit attribuée qu'un seul coecient, l'analyse factorielle devient essentiellement une technique qui se limite à évaluer la pertinence des indicateurs pour estimer la variable latente. C'est une limitation importante dans le sens où les indicateurs que l'on choisit d'inclure dans la création d'un indice de stress
Figure 2.4 Distribution des racines des erreurs quadratiques moyennes de l'analyse facto-rielle et de la méthode par moyenne pour la simulation du modèle augmenté
nancier sont déjà présélectionnés, et qu'une certaine valeur informative leur est accordée de par les concepts économiques que l'on invoque pour le choix de ces indicateurs. La méthode d'aggrégation ne devrait donc pas se limiter qu'à évaluer les indicateurs pour l'ensemble de la plage de données, mais aussi et surtout pour chaque observation disponible. Une technique faisant usage d'un modèle statistique dynamique peut répondre à ce besoin.
Chapitre 3
Modèles espace-état
Comme nous l'avons mentionné au chapitre précédent, il est possible d'intégrer l'équation (2.1) dans l'estimation de la variable latente. C'est notamment possible en utilisant un mo-dèle espace-état. Cette section introduit les principes d'estimation de ces momo-dèles et présente ensuite un modèle adapté à des données du type de celles simulées précédemment.
3.1 Formulation sous la forme d'un modèle espace-état
Les modèles espace-état sont généralement séparés en deux équations, exprimées sous forme matricielle.
La première est l'équation de transition (ou d'état). Elle décrit le comportement dynamique de l'état sous-jacent du système observé. Dans le cas d'un modèle linéaire, elle s'écrit comme suit :
xt= Ftxt−1+ εt, εt∼ N (0, Qt) i.i.d. , (3.1)
où xtreprésente l'état du système, possiblement déni par plus d'une variable, auquel cas xt
est un vecteur de dimension M. Ft est appelée la matrice de transition. C'est une matrice
carrée de dimension M. Elle décrit la dynamique de chacune des variables d'état par rapport à l'ensemble des variables d'état de la période précédente. Finalement, εt est un vecteur de
chocs aléatoires de taille M, avec sa matrice de covariance Qt, une matrice carrée de taille M.
Si les paramètres du modèle sont constants, F et Q peuvent être écrits sans indice.
La seconde équation est l'équation de mesure. Elle établit le lien entre les données disponibles et l'état sous-jacent du système. Ainsi, pour une période donnée :
yt= Htxt+ ωt, ωt∼ N (0, Rt) i.i.d. , (3.2)
où yt est le vecteur de taille N contenant les variables observées. La matrice de mesure Ht
décrit la transformation linéaire permettant de projeter le vecteur d'état dans l'espace des données. Elle est de dimension N par M. Finalement, ωt est un vecteur de chocs aléatoires de
dimension N et Rtest la matrice de covariance associée à ce vecteur. Comme pour l'équation de
transition, H et R peuvent écrits sans indice dans le cas d'un modèle à paramètres constants. Le modèle augmenté de la section 2.4peut s'exprimer sous la forme d'un modèle espace-état. En eet, les paramètres β, ρk, σs2 et σ2
0
k de l'équation (2.1) et des équations décrites par (2.9)
peuvent être placés dans les matrices F et Q de l'équation de transition :
F = β 0 . . . 0 0 ρ1 . . . 0 ... ... ... ... 0 0 . . . ρN , (3.3) Q = σs2 0 . . . 0 0 σ120 . . . 0 ... ... ... ... 0 0 . . . σN20 , (3.4)
où les deux matrices sont de dimension M par M, selon la nomenclature utilisée pour décrire l'équation (3.1). Dans le cas présent, on a que M = 1+N ; une variable d'état pour la variable latente qu'on tente d'estimer (le stress nancier) et N variables d'état pour les chocs aléatoires autorégressifs correspondant aux N variables observées.
Les équations décrites par (2.10) contiennent également les paramètres nécessaires pour former les matrices H et R de l'équation de mesure :
H = l1 1 0 . . . 0 l2 0 1 . . . 0 ... ... ... ... ... lN 0 0 . . . 1 , (3.5) R = σ2 1 0 . . . 0 0 σ22 . . . 0 ... ... ... ... 0 0 . . . σN2 , (3.6)
où la matrice H est de dimension N par M et R est de dimension N par N. La forme de la matrice H reète le fait que chaque variable observée apporte de l'information sur la variable latente, puisque la première colonne contient chacun des coecients lk. Le reste de la
matrice est construite de telle sorte que les chocs aléatoires autorégressifs entrent de manière idiosyncratique dans la détermination de chaque variable observée.
Contrairement à la méthode par moyenne et à l'analyse factorielle, le modèle présenté ici contient le processus de génération de la variable latente, ce qui peut améliorer la précision de
l'estimation dans le cas d'un modèle correctement spécié. Les chocs aléatoires autorégressifs constituent aussi des ajouts par rapport aux deux méthodes précédentes.
Ce modèle entre dans la catégorie des modèles à facteurs dynamiques1, tout comme celui
utilisé par la Banque fédérale de réserve de Chicago pour construire le NFCI, l'un des indices mentionnés dans le tableau 1.1.
3.2 Filtre de Kalman
Les modèles espace-état linéaires sont estimés par un procédé appelé ltre de Kalman. Celui-ci permet d'estimer récursivement l'état du système pour des paramètres donnés. Les paramètres ne sont généralement pas connus dans un contexte économique, mais peuvent être estimés par maximum de vraisemblance (La technique d'estimation est décrite à la section 3.3).
Le ltre de Kalman procède comme suit :
1. Fournir des valeurs crédibles quant à l'état initial du système ;
2. Formuler des prévisions pour la prochaine période en se servant de l'équation de transi-tion ;
3. Mettre à jour les prévisions en utilisant les données de la prochaine période ; 4. Alterner les étapes 2. et 3. jusqu'à la n de l'échantillon.
3.2.1 Formulation des prévisions
Le ltre doit tout d'abord être initialisé avec un vecteur d'état crédible, pour permettre à l'algorithme de converger éventuellement vers les vraies valeurs. Cela implique que le ltre de Kalman peut fournir des estimations imprécises lors des premières observations.
Le ltre nécessite également un estimé initial pour la matrice de covariance du système. Celle-ci reète le caractère dynamique et stochastique du modèle. En eet, en analysant l'équation (3.1), on s'aperçoit que chaque observation dépend des chocs aléatoires lors de la période d'observation, mais aussi des chocs aléatoires lors de l'ensemble des périodes précédentes. Il y a donc une propagation de l'incertitude. Typiquement, un ltre de Kalman est initialisé avec une matrice de covariance arbitrairement large pour rééter l'incertitude quant à l'état initial du système.
Les prévisions pour l'état du système s'obtiennent comme suit : ˜
xt= F xt−1, (3.7)
alors que la matrice de covariance relative aux erreurs de prévisions se formule ainsi : ˜
Pt= F Pt−1FT + Q . (3.8)
Ces deux équations reètent directement la forme de l'équation (3.1).
3.2.2 Mise à jour des prévisions
L'utilisation des données pour mettre à jour les prévisions est une opération plus complexe. La première étape est de calculer les résidus de mesure, yt, c'est-à-dire l'écart entre les valeurs
observées (zt) et ce à quoi on s'attendait (H ˜xt) :
yt= zt− H ˜xt. (3.9)
La matrice H permet de transformer les prévisions de l'espace d'état vers l'espace de mesure. Les résidus sont donc dans ce second espace et sont un vecteur de dimension N. La matrice de covariance de ces résidus s'obtient quant à elle en utilisant la matrice de covariance des prévisions transformée par H et en lui ajoutant l'incertitude reliée aux mesures yt :
St= H ˜PtHT + R . (3.10)
Les équations (3.9) et (3.10) partagent un objectif commun, celui de transformer les prévisions de l'espace d'état vers l'espace de mesure. La matrice résultant de l'équation (3.10) est notée diérement pour reéter ce nouvel espace.
L'équation suivante est celle qui fait prendre tout son sens au ltre de Kalman. Elle permet d'intégrer l'information provenant des prévisions à celle des observations. La matrice résultant de cette équation s'appelle gain de Kalman :
Kt= ˜PtHTS−1t . (3.11)
Son interprétation n'est pas forcément intuitive. En oubliant un instant que ce sont des ma-trices, on peut remarquer que, toutes autres choses étant égales par ailleurs, plus ˜Pt (la
volatilité intrinsèque du processus) est élevé, plus Kt l'est également. Un grand Kt
corres-pond donc à une situation où il faut accorder relativement moins de poids aux prévisions et davantage aux mesures. La relation est inversée pour Stet Kt.
Les estimations nales de l'état du système peuvent être obtenues ainsi :
xt= ˜xt+ Ktyt. (3.12)
Le premier terme du côté droit est le vecteur de prévisions obtenu par l'équation (3.7). Le second terme représente un ajustement à ces prévisions, en utilisant le gain de Kalman et les résidus de mesure. Plus Kt est élevé , plus les résidus (et donc les mesures) ont du poids
dans l'estimation. Cela est cohérent avec l'interprétation de l'équation (3.11).
L'estimation nale, ou ajustée, de la matrice de covariance du système est obtenue comme suit :
Pour une période donnée, on se retrouve ainsi avec une distribution estimée pour l'état du système :
N (xt, Pt) . (3.14)
Les paramètres de cette distribution font oce de valeur initiale pour la prochaine itération du ltre de Kalman, et ainsi de suite jusqu'à la n de l'échantillon2.
3.3 Estimation des paramètres
Les paramètres d'un ltre de Kalman peuvent être estimés par maximum de vraisemblance. Dans ce contexte, l'algorithme décrit à la section 3.2 fait oce de fonction qui utilise les données modélisées et un ensemble de paramètres donné pour calculer une valeur unique, la log-vraisemblance.
Une technique d'optimisation numérique est ensuite utilisée pour identier les valeurs numé-riques des paramètres maximisant la log-vraisemblance. Typiquement, la méthode de Broyden-Fletcher-Goldfarb-Shanno à mémoire limitée (L-BFGS) est un bon choix de technique d'opti-misation étant donné ses performances généralement satisfaisantes pour des fonctions objectifs présentant des non-linéarités fortes.
La log-vraisemblance d'un ltre de Kalman peut être calculée à l'aide de l'équation qui suit : lnL(Z) = −1 2 T ln(2π) + T X t=1 (ln|St| + ytS −1 t yTt) ! . (3.15)
Les paramètres ne sont pas présents dans cette équation. Leur impact est détecté par le biais de S et de y, qui sont obtenus au cours de l'estimation du ltre.
3.4 Extensions proposées
Le modèle augmenté présente plusieurs avantages pour l'estimation d'un indice de stress -nancier. Il reste relativement simple à comprendre, il estime plusieurs paramètres ayant une interprétation économique et surtout, il peut prendre en compte une part de déviation persis-tente dans la valeur informative des variables observées.
Cependant, cela reste un modèle linéaire faisant certaines hypothèses contraignantes, dont la normalité des chocs aléatoires et la constance des paramètres dans le temps. Les données nancières peuvent se comporter d'une manière dicile à réconcilier avec ces hypothèses. Certaines extensions sont donc considérées.
2. Puisque ce procédé est récursif, l'information contenue dans les dernières observations n'est pas incluse dans l'estimation des périodes précédentes. Pour ajuster les estimations du ltre de Kalman, il est possible d'utiliser un smoother, qui fait oce de ltre commencant par la n des variables d'états estimées et se dirigeant vers le début. Pour un article développant un tel smoother, voir Rauch et al.(1965). C'est cet algorithme qui est utilisé dans les parties appliquées de ce mémoire.
3.4.1 Prise en compte de chocs exogènes non mesurés
Le modèle espace-état présenté dans ce chapitre fait l'hypothèse que les chocs aléatoires sont distribués normalement. Cela peut-être problématique pour l'équation de transition lorsqu'il survient des chocs très importants, comme il peut se produire sur les marchés nanciers. Ce qui se produit alors est que l'apport provenant des données semble peu vraisemblable, du point de vue des prévisions formulées avec l'équation de transition. L'estimation de l'état du système est donc tirée vers les prévisions formulées a priori. Cela se fait dans une proportion trop importante pour bien estimer l'état véritable du système. Une solution possible consiste à imposer une variance plus élevée des termes aléatoires de l'équation de transition pour l'ensemble des périodes. Le problème dans ce cas est que, lorsque les chocs ne sont pas majeurs, leur variance est surestimée et l'estimation contient plus de bruit que ce qui serait souhaitable.
Pour conceptualiser le problème, les chocs majeurs peuvent être représentés comme des chocs exogènes non mesurés. De manière générale, le fait de ne pas inclure l'eet de variables exogènes pertinentes dans le modèle statistique le rend inadéquat. Cependant, dans ce cas précis, les chocs exogènes ont un eet sur le modèle surtout s'ils sont de grande ampleur. Il est donc possible de tenter de les détecter en se servant des résidus générés par le ltre.
L'intuition est que, si le ltre a de la diculté à réconcilier les prévisions du modèle auto-régressif avec les données, il faut se er à ces dernières et accorder moins de poids au mo-dèle sous-jacent. Après tout, la création d'un indice de stress nancier est principalement un problème dicté par les données. Pour accorder un poids inférieur au modèle, il est possible d'augmenter la valeur des termes appropriés dans la matrice Qt.
Pour déterminer si un choc exogène est présent pour une observation donnée, il faut avoir une mesure sur laquelle se baser. Le ltre de Kalman ore une telle mesure à l'équation (3.12) avec le second terme du côté droit, Ktyt. Cela représente l'ajustement qui est fait aux prévisions
de l'équation (3.7) pour obtenir l'estimation nale. C'est donc un résidu de prévisions. Ce résidu est exprimé dans des unités qui sont diciles à traiter dans le cas général. Il convient donc de standardiser ce résidu par rapport à sa matrice de covariance. Celle-ci n'est pas explicitement estimée dans les équations du ltre de Kalman. Cependant, on peut remarquer que la matrice de covariance de yt (c'est-à-dire St) est estimée avec l'équation (3.10) et que
Kt n'est pas une variable aléatoire, c'est une matrice permettant une transformation linéaire
de yt. La matrice de covariance du résidu peut donc être obtenue ainsi :
Vt= KtStKTt . (3.16)
En utilisant les termes diagonaux de cette matrice de covariance, le résidu de prévisions peut être standardisé. Cela représente un score standard (ou score Z) qui peut être comparé à un seuil donné pour déterminer si une variable d'état est mal estimée par le modèle. Un
seuil raisonnable pourrait par exemple être α = ±1, 96, comme fréquemment utilisé dans un contexte de régression pour tester la signicativité des coecients3. Un seuil α = ±1, 96 n'est
cependant qu'un point de référence ; dépendant des caractéristiques des données étudiées, il est possible qu'une valeur plus élevée doive être choisie.
Il reste à déterminer quel ajustement apporter à la matrice Qt lorsque le seuil est franchi. Il
serait possible de multiplier cette matrice par une valeur arbitrairement élevée, ce qui rendrait l'apport du modèle négligeable par rapport à l'apport des données. Cependant, puisque l'aug-mentation de la variance se répercute dans le temps, il est préférable de modier la matrice Qtde manière proportionnelle à l'importance du résidu. Pour ce mémoire, lorsqu'il est détecté qu'un terme de la matrice Qt doit être augmenté, l'ajustement utilisé est en proportion du
score standard estimé par rapport au seuil. Par exemple, si le seuil choisi est de α = 1, 96 et que le résidu standardisé est estimé à 3,92, l'ajustement est proportionnel à 3, 92/1, 96 = 2. Puisque la matrice de covariance Vt dépend non seulement de Qt mais aussi des matrices
de covariance des périodes précédentes, il faut prendre en considération la matrice ˜Pt. Ainsi,
l'ajustement à un élément diagonal de la matrice Qt est eectué à l'aide du scalaire wt,m,
calculé comme suit :
wt,m = max 1, 1 + yt,m0 α !2 − 1 ˜Pt,m Qt,m ! , (3.17) où y0
t,m, m = 1...M est le résidu standardisé pour l'une des m variables d'état au temps t.
L'utilisation du maximum entre 1 et le reste du côté droit de l'équation permet à l'ajustement d'être nul lorsque le résidu standardisé est inférieur au seuil α. Le terme obtenu grâce à la division de ˜Pt,m par Qt,m permet de prendre en compte la variance attribuable aux périodes
précédentes.
Pour examiner les conséquences de chocs exogènes non mesurés et les eets de la solution proposée, un ensemble de données a été simulé selon le modèle augmenté, avec les mêmes paramètres que la troisième simulation du chapitre 2. Des chocs positifs d'importance (+25, avant standardisation) sont introduits à t = 200, 400 et 600. La gure3.1illustre la diérence entre la variable latente et les estimations obtenues à l'aide du modèle espace-état, avec et sans l'ajustement proposé.
Pour le modèle sans ajustement, trois pics sont observables aux emplacements des chocs in-troduits. Ces pics ne sont pas présents pour le modèle avec ajustement, ce qui indique que les chocs exogènes sont mieux intégrés à l'estimation. Le modèle sans ajustement fournit un REQM de 0,341, contrairement à une valeur de 0,305 pour le modèle avec ajustement, une diérence de 10,7% à l'avantage de ce dernier. Par comparaison, la méthode par moyenne (0,354) et l'analyse factorielle (0,363) sont toutes deux moins précises.
3. Lors de l'estimation des paramètres par maximum de vraisemblance, le seuil α est relevé, an de favoriser la stabilité de l'optimisation numérique.
Figure 3.1 Diérence entre une variable latente et des estimations obtenues à l'aide d'un modèle espace-état avec et sans ajustement pour des chocs exogènes non mesurés
Ce n'est qu'un exemple anecdotique qui ne peut être considéré comme une preuve able de l'ecacité de l'extension proposée, mais les résultats sont encourageants. La technique est éprouvée plus en profondeur dans la section 4.2.
3.4.2 Paramètres changeant dans le temps
Le comportement des données nancières peut être diérent selon les époques, il pourrait donc être pertinent de permettre aux paramètres du modèle espace-état présenté dans ce chapitre d'évoluer à travers le temps.
La technique retenue dans ce mémoire est de spécier les coecients autorégressifs (le β et les ρk) comme étant des variables d'état à estimer, et de modéliser leur évolution comme des
marches aléatoires. Cela permet au modèle de reéter des changements lents et permanents dans la persistance des chocs. Les équations ont alors la forme suivante4 :
βt= βt−1+ εβt , ε β
t ∼ N (0, σβ2) i.i.d. . (3.18)
4. Pour les besoins de ce mémoire, la variance du bruit de ces marches aléatoires n'est pas estimée par maximum de vraisemblance, contrairement aux autres paramètres. La raison est que cette technique s'avérait relativement instable dans les cas testés. Cette variance est plutôt estimée comme étant une proportion du terme associé à βt(ou ρt,k) sur la diagonale de Pt−1. La proportion est établie selon λ−1− 1, où λ doit être
compris entre 0 et 1. Cette technique est présentée dans Nelson(2000) et est mise en pratique dansGove et Hollinger(2006). Comme dans ce dernier article, le présent mémoire utilise une valeur λ de 0,9975.
En décrivant les coecients d'autorégression de cette manière, des interactions non linéaires entre des variables d'état sont introduites dans le modèle, et le ltre de Kalman classique ne peut être utilisé pour l'estimation.
Pour estimer ce modèle non linéaire, ce mémoire utilise le ltre de Kalman unscented. C'est une modication du ltre de Kalman qui tire prot de la transformation unscented. L'intuition derrière cette transformation est que, bien qu'il ne soit pas aisé d'obtenir le résultat d'une transformation non linéaire d'une distribution normale, il est simple de le faire pour un point. Ainsi, le ltre de Kalman unscented choisit un ensemble de points, appelés points sigma, qui reète la moyenne et la variance d'une distribution normale, et eectue la transformation non linéaire sur cet ensemble. La moyenne et la variance de la distribution transformée sont alors la moyenne et la variance des points transformés. L'algorithme du ltre de Kalman unscented est décrit à l'annexe A.
Cette manière d'augmenter le vecteur d'état pour y inclure des paramètres n'est pas nouvelle, elle est même présentée dans l'une des conférences les plus citées parmis les travaux traitant du ltre de Kalman unscented (Wan et van der Merwe, 2000). On l'appelle alors un ltre de Kalman unscented joint.
3.4.3 Autres extensions possibles
Plus tôt dans ce chapitre, il est mentionné que l'hypothèse de normalité des termes aléatoires pouvait causer des problèmes lors de l'utilisation de données nancières. L'approche proposée est d'utiliser les résidus pour identier les observations diciles à réconcilier avec le modèle, et d'ajuster les termes de variance en conséquence.
Une autre approche possible est d'estimer un modèle espace-état qui fait l'hypothèse de chocs non normaux. Le ltre de Kalman ne permet pas ce genre de modélisation, mais il est possible de le faire avec un ltre à particules. Celui-ci aurait aussi permis l'estimation d'un modèle non linéaire, tout comme le ltre de Kalman unscented.
Il y a deux raisons pour lesquelles le ltre à particules n'est pas l'option retenue pour ce mé-moire. La première est que le problème est approché non pas sous l'angle de la distribution à choisir, mais plutôt sous celui de chocs sortant des capacités explicatives du modèle corres-pondant à la grande majorité des données. En approchant le problème de cette manière, la solution logique est de développer une technique pour détecter ces chocs et ajuster le modèle en conséquence lorsqu'ils apparaissent, ce qui est fait dans ce mémoire. La seconde raison pour ne pas utiliser le ltre à particules est le temps pris par son utilisation lors des simulations du chapitre 4. C'est que ce ltre génère un très grand nombre de particules à chaque observa-tion pour estimer l'état du système. Par comparaison, le ltre de Kalman unscented est une technique d'échantillonage déterministe qui ne génère que 2N + 1 points sigma, ce qui est beaucoup plus simple à gérer pour les moyens informatiques de l'auteur de ce mémoire.
Avec les extensions proposées en 3.4.1 et en 3.4.2, certains paramètres du modèle ne sont pas constants dans le temps. Cependant, la matrice de covariance R demeure constante, et les éléments de la matrice Q ne peuvent changer que ponctuellement. Seuls les coecients autorégressifs peuvent subir des changements permanents. Cela représente des choix qui ont été faits dans la structure du modèle.
La matrice R demeure constante parce que, pour les besoins de l'estimation d'un indice de stress nancier, c'est la matrice la moins essentielle du modèle. En eet, le problème est surtout de départager les mouvements qui proviennent de changements dans le niveau du stress nancier des mouvements provenant d'événements restreints à certains indicateurs. La précision des prises de mesure n'est pas un aussi grand enjeu.
À l'inverse, il est important que la matrice Q puisse s'ajuster instantanément, sous peine de sous-estimer l'importance d'événements majeurs sur les marchés nanciers. L'ampleur de ces événements est justement l'une des choses qu'un indice de stress nancier cherche à identi-er. Le prix à payer pour permettre à Q de s'ajuster rapidement est qu'il est dicile de lui permettre d'aussi évoluer de manière permanente.
Les changements dans les coecients autorégressifs sont modélisés comme des marches aléa-toires pour leur permettre d'être permanents. Puisqu'ils ne sont pas directement aectés par un événement aectant soudainement le niveau de stress nancier, il n'est pas critique qu'ils puissent s'ajuster aussi rapidement que la matrice Q. Cela ne veut pas dire que ces coecients ne peuvent pas changer brusquement dans les faits, c'est simplement une hypothèse de tra-vail reétant l'objectif principal de l'estimateur, c'est-à-dire l'estimation du niveau de stress nancier.