Multi-états ou microsimulation? - Modèles démolinguistiques

Chapitre 2 Description générale du modèle

2.1 Modèles démolinguistiques

2.1.1 Multi-états ou microsimulation?

Les modèles multi-états sont des modèles de projection basés sur la méthode des composantes démographiques et le calcul matriciel. En somme, on applique à un vecteur de population observée au temps t une matrice de transition permettant d’obtenir une projection de cette population au temps t+1. Les cellules de la matrice de population utilisée sont constituées de sous-groupes supposés homogènes selon l’âge, le sexe, la région, et selon toutes autres caractéristiques pertinentes à la projection.

Cette méthode, en plus de bénéficier de la puissance et de l’élégance que lui confère la théorie du calcul matriciel, comporte certains avantages indéniables, avantages qui toutefois n’arrivent pas à surpasser les inconvénients majeurs que nous exposerons plus loin. Quels sont les avantages du modèle multi-états? Pourquoi ce type de modèle a-t-il fini par constituer la norme en matière de projection démographique?

Les modèles multi-états, on l’a dit, tirent leurs fondements théoriques des mathématiques matricielles. Les comportements et les limites des modèles multi-états sont donc accessibles à quiconque possède une base raisonnable en mathématique.

Lorsque le nombre de variables devant être projetées est limité, le modèle multi-états constitue une méthode de projection efficace et facile d’implémentation : une simple feuille de calcul Excel ou un logiciel statistique tel que R ou Matlab suffit à la tâche. La charge de calcul impliquée dans le déroulement d’une projection multi-états est relativement légère de telle sorte qu’il a été possible de bénéficier très tôt de la puissance de calcul de l’ordinateur. Cet avantage a contribué à la diffusion de la méthode dans les cercles universitaires et les agences statistiques. La méthode étant connue et largement utilisée par de nombreux chercheurs à travers le monde, le développeur de modèles multi-états bénéficie d’une documentation technique abondante et de réseaux scientifiques bien établis.

Malgré ces atouts, les modèles multi-états souffrent de plusieurs lacunes structurelles importantes (Willekens 2011; Van Imhoff et Post 1997; Spielauer 2009a). Ils sont d’abord limités quant au nombre de variables qu’ils permettent de projeter simultanément. En effet, afin d’éviter l’augmentation exponentielle de la taille de la matrice d’états qu’entraîne tout ajout de variables dans un modèle de type macro, il est nécessaire de décomposer le processus de projection afin de générer des matrices plus petites et plus faciles à manipuler. Ces manipulations supplémentaires visant à contourner la croissance exponentielle de la matrice de transition rendent rapidement laborieuse l’implémentation de la projection dans un logiciel.

Ensuite, puisque les projections multi-états sont réalisées à partir de sous-populations (agrégats), elles ne permettent pas de créer de liens entre les acteurs, et donc de simuler des interactions entre individus. À titre d’exemple, un modèle multi-états n’est pas en mesure de simuler un marché matrimonial permettant de former des couples selon certaines règles préétablies. Un modèle multi-états n’est pas non plus en mesure de créer de liens entre une mère et son enfant, rendant ainsi difficile la simulation de certaines dynamiques familiales, telle que la transmission intergénérationnelle du capital culturel ou social.

Si l’utilisation de variables environnementales ou contextuelles est possible dans un modèle multi-états, l’intégration se révèle souvent complexe, surtout si les variables contextuelles affectent dynamiquement la valeur des paramètres du modèle.

Finalement, dans un modèle multi-états, seules sont admises les variables nominales (d’état) permettant de créer un nombre fini d’agrégats, ce qui exclut la possibilité de projeter des variables purement continues.

Les modèles de microsimulation sont quant à eux pratiquement exempts des problèmes décrits ci-haut (Willekens 2011; Van Imhoff et Post 1997; Spielauer 2009a).

La microsimulation applique des taux de transition entre états à des individus plutôt qu’à des agrégats. Dans un modèle multi-états, on applique des probabilités de transition (par exemple, probabilité de migrer d’un endroit à l’autre) à des groupes d’individus considérés homogènes et se trouvant dans un état donné (par exemple, « Province de résidence : Québec ») afin d’obtenir un nouveau groupe d’individus dans un nouvel état (par exemple, « Province de résidence : Ontario »). En microsimulation, puisque l’unité d’analyse est l’individu, chaque individu soumis au risque de migrer pourra ou non vivre un événement de migration, selon l’issue d’un tirage

aléatoire. Pour reproduire les statistiques macros, les parcours individuels de tous les acteurs doivent être agrégés.

En microsimulation, la « matrice d’états » comporte toujours deux dimensions : les lignes représentent chacun des individus de la population à être simulée et les colonnes représentent chacune des variables d’état. À l’intersection d’une ligne et d’une colonne se trouve la valeur d’une variable d’état pour un individu donné. La taille de la matrice d’états grossit ainsi linéairement (et non exponentiellement) avec le nombre d’individus ou avec le nombre de variables projetées. Elle ne dépend pas du nombre de modalités que comprend chacune des variables d’état, ce qui permet l’intégration de variables continues, chose tout à fait impossible dans un modèle de type multi-états.

Les acteurs étant projetés individuellement, des liens entre les agents peuvent être créés et conservés tout au long de la simulation. On peut ainsi établir un lien entre les membres d’un ménage, par exemple entre les membres d’un couple, ou entre une mère et ses enfants. Les agents ainsi liés peuvent interagir et s’influencer mutuellement. Quant aux variables environnementales, elles s’intègrent aisément au modèle grâce à la puissance et à la flexibilité offertes par les langages de programmation haut niveau30_.

La microsimulation permet aussi de générer les biographies individuelles des acteurs de la simulation, ce que ne peut accomplir un modèle macro. Au-delà de l’analyse des états individuels, elle rend ainsi possible l’analyse de processus non markoviens31_{comportant une}

séquence d’états (Willekens 2011).

Aucune méthode n’étant parfaite, la microsimulation comporte aussi quelques faiblesses.

La microsimulation exige des ressources computationnelles importantes, ce qui explique en partie son développement tardif, malgré une conceptualisation remontant à la fin des années 50 (Orcutt 1957). L’augmentation exponentielle de la puissance des ordinateurs dans les dernières décennies a toutefois fait disparaître ce problème. Des modèles de microsimulation sophistiqués peuvent désormais être réalisés sur un simple ordinateur personnel. Ajoutons toutefois que la plupart des environnements de développement de modèles sont complexes et requièrent

30_{Le logiciel de microsimulation qui sera utilisé, Modgen, est basé sur le langage C++ et son environnement de} développement est Visual Studio.

31_{Un processus markovien est un processus pour lequel l’état d’un système au temps t+1 ne dépend que des états} au temps t. Un tel processus est donc fondé sur «l’oubli du passé», alors qu’un processus non markovien est fonction de la valeur des états passés et présents.

l’utilisation d’outils de programmation sophistiqués, ce qui peut rendre la courbe d’apprentissage particulièrement abrupte. Cette difficulté d’apprentissage initiale est largement compensée par la puissance et la flexibilité offerte par la microsimulation.

La principale difficulté associée aux modèles de microsimulation tient à leur nature stochastique. On trouve dans les modèles de microsimulation deux problèmes d’aléa : l’aléa inhérent et l’aléa de spécification (Van Imhoff et Post 1997)32_{. L’aléa inhérent est lié à l’erreur de Monte-Carlo qui}

est le résultat des tirages aléatoires répétés. Dans une projection macro, si une population de cent personnes est soumise à une probabilité de décès de dix pour cent, le nombre de décès enregistré dans une année sera toujours de dix. Dans une projection par microsimulation, la moyenne du nombre de décès simulés sera toujours de dix, mais chacune des simulations produira un nombre de décès légèrement différent. On peut aisément diminuer l’importance de l’aléa inhérent en augmentant la taille de l’échantillon de la population de départ ou en calculant la moyenne de plusieurs simulations.

L’erreur résultant de l’aléa de spécification est plus fondamentale. Cette source d’aléa découle des erreurs d’estimation dans le calcul des paramètres et de l’interaction entre ces erreurs et le processus de Monte-Carlo. Plus le nombre de variables est élevé, plus l’erreur de spécification est importante. C’est là le grand paradoxe des modèles de microsimulation : ils permettent l’inclusion d’un grand nombre de variables, mais à un prix important, puisque le pouvoir analytique diminue à mesure que le nombre de variables augmente. Confronté à cet aléa, le développeur de modèle devra toujours chercher à spécifier un modèle aussi parcimonieux que possible.

Comme nous le verrons plus bas, le modèle de projection développé dans cette thèse comprend un nombre de variables limité afin de minimiser l’aléa de spécification. Malgré ce nombre limité, la réalisation du modèle à l’aide des techniques du multi-états aurait été laborieuse. De plus, un développement ultérieur du modèle par l’intégration de variables contextuelles et d’un marché matrimonial serait impossible sans l’apport des techniques de microsimulation. Le choix de la microsimulation allait donc de soi.

32_{En fait, Van Imhoff et Post identifient une troisième source d’aléa : l’aléa lié à la population de départ. Au moment} où ceux-ci écrivent leur article en 1997, la puissance des ordinateurs ne permet pas de simuler l’ensemble des individus d’une population donnée : il faut donc avoir recours à un sous-échantillon comme population de départ. En pratique, cette contrainte est maintenant levée et la totalité d’une base de données peut aujourd’hui être utilisée comme population de départ.

Dans le document Projections démolinguistiques des populations francophones, anglophones et allophones au Canada : une analyse par microsimulation (Page 56-60)