Données et méthode - La dynamique des substitutions linguistiques au Canada

Chapitre 3 La dynamique des substitutions linguistiques au Canada

3.2 Données et méthode

3.2.1 Données utilisées

Les données utilisées sont tirées des fichiers de données individuelles et confidentielles (échantillon 20 %) des recensements canadiens de 1991, 1996, 2001 et 2006.

Les variables linguistiques analysées sont la langue maternelle et la langue parlée le plus souvent à la maison. La langue maternelle est obtenue à partir de la réponse à la question suivante : « Quelle est la langue que cette personne a apprise en premier lieu à la maison dans son enfance et qu’elle comprend encore ? Si cette personne ne comprend plus la première langue apprise, indiquez la seconde langue qu’elle a apprise ». Le concept de langue maternelle est analogue (mais non identique) aux concepts de langue natale ou de langue initiale (Jiménez-Salcedo 2011). Les francophones, anglophones et allophones sont définis comme des individus respectivement de langue maternelle française, anglaise ou autre. L’expression « minorités linguistiques » est quant à elle réservée aux communautés minoritaires par rapport à la langue officielle la plus répandue dans la région, soit les communautés anglophones au Québec et francophones au Canada hors Québec. La langue parlée le plus souvent à la maison est quant à elle dérivée d’une question simple et sans ambiguïté : « Quelle langue cette personne parle-t-elle le plus souvent à la maison ? ». On dira d’une personne qui parle une langue donnée à la maison qu’elle est un locuteur de cette langue.

Bien que la formulation de ces questions laisse présager qu’une seule réponse est attendue, Statistique Canada accepte les réponses multiples aux questions linguistiques. Cela représente en 2006 1,3 % des réponses pour la langue maternelle et 1,8 % pour la langue parlée à la maison. Afin de simplifier l’analyse, le nombre de modalités possibles est réduit de sept70_à

trois (français, anglais, autre). Ainsi, on simplifie les réponses multiples en choisissant aléatoirement une seule langue parmi les langues déclarées. À titre d’exemple, un individu ayant répondu « français et autre langue » sera classé aléatoirement dans la catégorie français (probabilité 0,5) ou autre langue (probabilité 0,5). Le traitement des réponses multiples a été l’objet de nombreuses analyses et critiques sur lesquelles il n’est pas utile de revenir ici71_{. Une}

analyse de sensibilité de cette répartition effectuée sur les données de l’analyse présentée ici montre que la répartition aléatoire des multiples constitue une bonne solution intermédiaire (données non montrées, voir l’annexe 3.5.2).

Une substitution linguistique est définie comme étant le fait de parler le plus souvent à la maison une langue différente de sa langue maternelle. La persistance linguistique représente la proportion d’une cohorte n’ayant pas effectué une substitution linguistique.

3.2.2 Méthodes utilisées antérieurement

Des taux de substitution linguistique par âge et statut d’immigrant ont déjà été calculés par Termote et ses collaborateurs à des fins de projections démolinguistiques (Termote 2011; Termote 2008). Les taux sont obtenus par la comparaison des caractéristiques linguistiques de pseudo-cohortes de cinq ans sur deux recensements successifs. Puisque les substitutions linguistiques constituent des événements relativement rares, du moins dans la première génération d’immigrants, ces comparaisons reliant des cohortes sur deux recensements sont sujettes aux erreurs d’échantillonnage, au sous-dénombrement différentiel selon l’âge et aux autres phénomènes perturbateurs comme les migrations. Comme ces erreurs sont généralement plus importantes chez les allophones et dans les groupes d’âges où les substitutions linguistiques sont plus fréquentes, il est difficile d’obtenir des estimations stables d’un recensement à l’autre. Les résultats obtenus au moyen de cette technique d’estimation présentent une forte variabilité et certaines anomalies. Les niveaux de persistance linguistique

70_{Les sept modalités sont anglais, français, autre, anglais et français, anglais et autre, français et autre, anglais et} français et autre.

finale (après l’âge de 50 ans) varient aussi sensiblement selon les recensements utilisés pour la comparaison.

Théoriquement, l’analyse des données d’une enquête biographique ou longitudinale demeure la meilleure méthode pour dériver les taux de substitution linguistique. Une telle enquête a été utilisée par J.-P. Corbeil et Houle (2014) pour dériver des taux de substitution linguistique par âge pour les allophones de la région de Montréal. Malheureusement, la faible taille de l’échantillon et la nature de la population à l’étude limitent les comparaisons régionales. De plus, comme l’enquête ne sera pas répétée, les comparaisons dans le temps sont impossibles. Il est finalement possible d’apparier les données de deux recensements successifs72_{, ce qui}

permettrait une véritable mesure longitudinale des comportements linguistiques, mais cette méthode requiert une clé d’appariement (qui n’est pas disponible aux chercheurs à l’extérieur de Statistique Canada) ou un algorithme d’appariement également sujet à différents types d’erreurs. L’appariement de recensements a déjà été utilisé par Statistique Canada afin de calculer les transitions d’identité autochtone chez les Canadiens (Caron Malenfant et al. 2014).

3.2.3 Méthode d’analyse

Afin de contourner les problèmes exposés ci-dessus, une méthode simple est proposée pour estimer à l’aide d’un seul recensement les risques de substitution linguistique. Fondée sur le principe de la cohorte fictive, cette méthode permet de déterminer le calendrier des substitutions linguistiques par année d’âge (natifs), ou par année depuis l’immigration au Canada (immigrants) pour diverses régions du Canada et pour divers groupes de langue maternelle (francophones, anglophones, allophones).

Les probabilités annuelles de substitutions linguistiques sont tirées d’une « courbe de survie », établie en calculant et en juxtaposant la persistance linguistique de cohortes successives. La cohorte est définie par l’âge pour les natifs et par la durée depuis l’immigration pour les immigrants. On suppose que la langue maternelle est fixée à la naissance et qu’elle ne varie pas au fil du temps, ce qui constitue une approximation assez raisonnable (Lepage 2011). On étudie seulement les substitutions linguistiques survenant avant l’âge de cinquante ans, le phénomène étant négligeable dans les groupes plus âgés. Seuls les immigrants arrivés après

72_{L’échantillon du questionnaire long du recensement où l’on retrouve les questions linguistiques est de 20 %, ce qui} implique que théoriquement, 4 % de la population répondra à deux recensements successifs.

1970 ont été retenus dans l’analyse en raison des effectifs trop faibles d’immigrants par âge à l’arrivée pour des cohortes plus anciennes. De plus, la composition de l’immigration et les politiques linguistiques au Canada et au Québec ont beaucoup évolué depuis les années 1970 et l’analyse des comportements linguistiques antérieurs n’a plus qu’une pertinence historique. Les résidents non permanents ont été exclus car, par définition, ils seront appelés à quitter le pays à la fin de leur visa temporaire ou, s’ils obtiennent le statut de résident permanent, intègreront une autre cohorte d’immigrants.

Le principe de la cohorte fictive suppose que les taux de substitution linguistique sont stationnaires, c’est-à-dire qu’ils sont invariants dans le temps. Cette possible limite de la méthode est compensée par la possibilité de comparer les courbes de persistance linguistique sur une période de 15 ans (quatre recensements). La similitude des courbes de persistance observées laisse présager que les taux sont effectivement relativement stationnaires, du moins à moyen terme (Figure 3.1, Figure 3.2E). La méthode utilisée est également sujette aux erreurs dues au sous-dénombrement selon l’âge ou la langue maternelle dans la mesure où les caractéristiques des individus sous-dénombrés diffèrent de la population. Toutefois, ce sont les jeunes adultes qui sont les plus touchés par le sous-dénombrement73_{, et l’impact global sur}

l’estimation de la courbe de survie est vraisemblablement négligeable. Enfin, la mobilité différentielle selon les caractéristiques linguistiques peut mener à une sous- ou à une surestimation des courbes de persistance linguistique infranationales. Nous reviendrons en détail sur ces biais potentiels dans la discussion.

Les courbes de survie obtenues sont paramétrées au moyen d’une régression linéaire appliquée aux microdonnées de recensement. Les régressions, dont la variable dépendante « substitution linguistique » prend la valeur 0 ou 1, comportent l’effet du temps (âge ou durée), du temps au carré et de l’année du recensement pour contrôler l’effet de période. Contrairement aux paramètres des fonctions associées aux modèles de risque et de durée, les paramètres de la régression linéaire ne correspondent pas forcément à une fonction strictement décroissante (ici, une fonction quadratique), ce qui pose problème dans la mesure où une courbe de survie n’est jamais croissante74_{. Afin d’éviter ceci, toute pente positive dans la courbe de survie}

observée est transformée en pente nulle. Notons que cette situation ne survient que lorsque la

73_{http://www.statcan.gc.ca/pub/91-215-x/2012000/t579-fra.htm}_{, consulté le 20 avril 2015.}

74_{Certains outils statistiques permettent de réaliser une analyse de survie au moyen de données censurées à gauche} et à droite. Quelques tests ont été réalisés en ce sens, mais les résultats ont été peu probants, notamment parce que la fonction utilisée (Intcens dans Stata) et la nature des données du recensement sur les substitutions linguistiques ne permettent pas l’analyse de survie par partie (données non montrées, voir annexe 1).

probabilité de réaliser une substitution linguistique est très faible (généralement après l’âge de 40 ans, Figure 3.2C). Cet ajustement n’a donc aucun impact significatif sur les résultats et remplit surtout un objectif de cohérence théorique.

Dans le document Projections démolinguistiques des populations francophones, anglophones et allophones au Canada : une analyse par microsimulation (Page 126-130)