• Aucun résultat trouvé

Chapitre 3: Données et méthodologie

3.2 Variables

3.2.1 Variable d’évènement

La variable d’intérêt, soit l’âge exact au décès, a été construite en soustrayant la date de naissance à la date de décès. Dans les cas où des informations concernant la date de décès étaient manquantes, des valeurs ont été imputées. Les individus pour lesquels l’année de décès n’était pas disponible n’ont pas été censurés à droite; ils ont été rejetés de l’analyse. Comme mentionnée dans la section précédente, la date de naissance provient de la déclaration du chef du ménage au recensement canadien de 1901. Lorsqu’elle n’était pas disponible ou qu’elle était incomplète, nous avons utilisé la date de naissance qui figurait sur l’acte de décès; ce fut le cas pour 9 personnes pour lesquelles l’année et/ou le mois étaient manquants et pour 54 personnes pour lesquelles la date de naissance fut complétée par le jour de naissance qui figurait sur l’acte de décès. Pour les individus dont le jour de la date de naissance était manquant, la valeur a été remplacée par la moyenne de jour dans un mois, soit 15; ce fut le cas pour 94 individus. Toutefois, ceux dont le mois de naissance était absent n’ont pas été considérés dans les analyses. L’imputation d’une valeur dans ce cas aurait pu causer un biais pour les variables de la saison de naissance et de l’exposition à une épidémie qui sont construites à partir de cette information. Ces variables ont permis de calculer l’âge exact au décès et de sélectionner les individus qui sont décédés à 40 ans ou plus.

33

3.2.2 Variables indépendantes

3.2.2.1 Exposition

En se basant sur la recension des épidémies entre 1885 et 1901, présentée dans le chapitre 2, une variable indiquant le moment de l’exposition à un type de maladie a été créée. Pour ce faire, la durée des périodes pandémiques a d’abord été identifiée. Bien que plusieurs ouvrages sur le sujet considèrent les périodes les plus meurtrières associées aux épidémies (Almond 2006; Myrskyla, Mehta et Chang 2013; Mazumder et al. 2010), faute d’informations précises et dans un souci de comparaison, la durée a plutôt été déterminée en mois par les dates de début et de fin, selon les renseignements tirés des journaux et des rapports du Conseil d'Hygiène de la province de Québec (CHPQ). Ainsi, trois types de maladies qui se sont développées en épidémies ont été relevées; la grippe, responsable de la pandémie de la grippe russe de janvier à février 1890 (Le Canadien 1890a; Le Quotidien 1890k), la scarlatine, qui a été épidémique dans la province en 1893, de juillet à février (Pelletier 1895) et la variole qui a conduit à trois périodes épidémiques, soit d’avril à décembre 1885 (Bliss 1993), de septembre à décembre 1891 (Pelletier 1895), de même que d'août 1899 à septembre 1900 (Pelletier 1900), de janvier à juin 1901 (Pelletier 1901, 1902) et de novembre à décembre 1901 (Pelletier 1902). On considère que les trois éclosions de 1899 à 1901 sont de la même épidémie. Puisqu’il s’agit du même type de maladie, même si l’épidémie de 1885 a été plus virulente que les deux autres, les trois épidémies de variole ont été jumelées.

Il est possible que les informations tirées des rapports du CHPQ, utilisées pour identifier les dates de début et de fin des épidémies de variole et de scarlatine, et des journaux de l’époque, utilisées pour identifier les dates de début et de fin de la pandémie de grippe, manquent de précision. En effet, un délai a pu se produire entre le début de l’épidémie et la déclaration des cas de maladies aux CHPQ. Il en est de même pour la publication d’articles de journaux sur l’arrivée de la grippe, qui a pu se faire des jours après la date réelle. Toutefois, en dépit de ces délais probables, on peut considérer que les renseignements sur lesquels nous nous sommes basés sont suffisamment fiables. Dans le

34

cas des épidémies de scarlatine et de variole, bien que certaines paroisses ne déclaraient pas systématiquement les cas de maladies au moment où ils se produisaient, les membres du CHPQ, pour leur rapport, remontaient jusqu’aux premiers malades qui étaient arrivés des provinces avoisinantes ou des États-Unis. Ce sont les informations, qui ont été considérées pour déterminer l’arrivée au Québec de ces deux types d’épidémies. Pour la pandémie de la grippe russe, le compte des décès à partir des actes paroissiaux, une source fiable et précise, a permis d’appuyer les dates d’arrivée et de fin indiquées dans les journaux. Enfin, on peut penser que le découpage par mois permet de pallier quelque peu l’imprécision des sources de données en considérant les quelques jours précédents l'arrivée de la première personne malade dans la province et les jours qui suivent les derniers cas de maladies ou de décès rapportés.

Le stade du développement au moment de l’exposition a ensuite été défini à partir du moment de la naissance. Les individus nés dans les douze mois qui précèdent une épidémie sont considérés comme exposés avant l’âge d’un an, ceux dont la naissance est survenue durant les neuf mois qui suivent une épidémie ont pu être exposés pendant la période fœtale et les personnes qui sont nées pendant une période épidémique ont vraisemblablement été exposées in utero et durant la première année de vie (Figure 3.2). De ce fait, la même méthode a été employée pour identifier le moment de l’exposition pour chacune des épidémies, peu importe le type de maladie et sa durée. Pour les individus nés entre deux éclosions de varioles rapprochées, l’exposition est considérée comme s’étant produite tant à l’âge d’un an que pendant la période fœtale. En effet, les individus nés d’octobre à décembre 1900 ont été exposés in utero à l’épidémie variolique de 1899-1900 et avant l’âge d’un an aux deux éclosions de la maladie en 1901. Ceux nés entre juillet et octobre 1901 ont été exposés à la période épidémique du début de 1901 durant la période fœtale et à celle à la fin de l’année durant leur première année de vie. Il n’y a donc pas d’individus qui ont été exposés à cette épidémie pendant la période fœtale seulement. Cela implique que pour cette catégorie, l’exposition à la variole indique l’exposition in utero à l’épidémie de 1885 ou à celle 1891. Dans le cas où des épidémies dues à des agents pathogènes différents se chevauchent dans le temps, nous avons catégorisé l’exposition de manière à faire la distinction. Ainsi, les individus nés de

35

septembre à décembre 1890 sont considérés comme exposés durant la période fœtale à la grippe russe et avant l’âge d’un an à la variole, alors que ceux qui sont nés de juillet à septembre 1892 ont probablement été exposés à la variole in utero et à la scarlatine durant la première année de vie. La catégorie de référence pour cette variable est composée des personnes qui n’ont pas été exposées à une épidémie durant une période critique de leur développement. Bien que certaines études démontrent une différence de l’effet de l’exposition à une épidémie selon le trimestre de grossesse, cette catégorisation n’a pas pu être réalisée ici en raison d’un trop petit nombre d’individus dans la base de données.

36

37

En distinguant les moments de l’exposition et les types de maladies, la variable contient douze catégories; 1- pas exposé à une épidémie dans une période critique, 2- grippe – in utero, 3- grippe – in utero et avant 1 an, 4- grippe – avant 1 an, 5- grippe – in utero et variole – avant 1 an, 6- variole – in utero, 7- variole – in utero et avant 1 an, 8- variole – avant 1 an, 9- variole – in utero et scarlatine – avant 1 an, 10- scarlatine – in utero, 11- scarlatine – avant 1 an et in utero et 12- scarlatine – avant 1 an. Afin d’avoir une variable d’exposition contenant moins de catégories, plusieurs regroupements ont été testés. En nous basant sur un critère objectif, soit l’ajustement statistique, nous avons finalement regroupé les maladies et dégagé trois modalités; 1- pas exposé à une épidémie dans une période critique, 2- in utero, 3- in utero et avant 1 an et 4- avant 1 an. Les individus qui ont été exposés à plusieurs maladies durant une période critique du développement ont été classés dans la catégorie in utero et avant 1 an. Nous allons dans le prochain chapitre procéder à des analyses descriptives de la variable d’exposition détaillée et de la variable d’exposition groupée.

3.2.2.2 Variables de contexte

Comme la revue de littérature l'a démontré, les variables contextuelles qui permettent d’estimer les conditions de vie dans l’enfance sont primordiales pour étudier la longévité. Plusieurs ont donc été intégrées afin d’évaluer leur effet. D’abord, une variable catégorielle correspondant à la saison de naissance a été créée à partir de la date de naissance pour chaque individu. Le printemps va du 21 mars au 20 juin, l’été du 21 juin au 20 septembre, l’automne du 21 septembre au 20 décembre et l’hiver du 21 décembre au 20 mars. Étant donné que les épidémies frappent à certaines périodes spécifiques de l’année, elles pourraient en quelque sorte mimer un effet saisonnier. Il importe donc d’ajuster les résultats selon cette variable afin de distinguer les effets respectifs d‘une exposition à une épidémie et de la saison de naissance. De plus, cette variable permet de considérer les effets d’expositions à des maladies infectieuses, notamment celles contractées l’été qui sont particulièrement virulentes.

38

Les variables de lieu de résidence et de régions se sont elles aussi avérées pertinentes selon plusieurs études. Ainsi, le lieu de résidence à la naissance, urbain ou rural, qui découle de la déclaration du chef de ménage au recensement canadien de 1901, sera considéré afin de tenir compte du degré d’exposition à des maladies infectieuses transmises dans l’air ou dans l’eau, dont la prévalence est plus élevée en ville. Les 85 individus qui avaient une valeur manquante pour cette variable ont été rejetés des analyses. De plus, la région d’habitation en 1901 et la région d’habitation au décès seront analysées. Comme aucune information n’est disponible quant au lieu géographique de la résidence à la naissance, une variable de la région d’habitation en 1901 a été construite à l’aide des informations du recensement canadien de cette année, soit les noms du district et du sous-district qui sont accessibles pour tous les individus. Pour chacun, nous avons cherché les renseignements dans le répertoire des municipalités des Affaires municipales et Occupation du territoire, afin de déterminer la région administrative correspondante. Cette mesure est donc une approximation de la région de naissance. Plus ce moment et celui du recensement sont éloignés dans le temps, plus il est probable qu’il y ait eu déménagement entre les deux. Toutefois, on peut penser que comme les découpages sont très vastes, un changement de résidence n’implique pas nécessairement un changement de région.

À partir du lieu de résidence au décès disponible dans l’acte de l’état civil, nous avons attribué les valeurs de la région d’habitation au décès. Chaque localité a été cherchée dans le répertoire des municipalités des Affaires municipales et Occupation du territoire pour attribuer la région de résidence en 1901. Cependant, pour 358 individus, l’information n’était pas disponible ou alors pas assez précise pour permettre l’identification. Ils ont donc été classés sous la catégorie inconnue. La variable se veut un «proxy» de la région d’habitation à l’âge adulte. Il est toutefois possible que cette information soit biaisée, puisqu’un déménagement à un âge avancé a pu se produire. En effet, les personnes ont pu se rapprocher des services de santé ou déménager dans une résidence avant leur décès. Pour les deux variables de régions, les divisions géographiques sont les mêmes, soient un regroupement de régions administratives qui résultent de huit grands territoires (Abitibi-Témiscamingue et Outaouais; Bas-Saint-

39

Laurent et Gaspésie – Îles-de-la-Madeleine; Capitale-Nationale; Centre-du-Québec, Chaudière-Appalaches et Estrie; Côte-Nord, Nord-du-Québec et Saguenay – Lac-Saint- Jean; Lanaudière, Laurentides et Mauricie; Laval et Montréal; Montérégie) (Figure 3.3).

Figure 3.3: Carte du découpage des variables région de résidence en 1901 et région de résidence au décès

Source: Ministère des Ressources naturelles et de la Faune - Direction générale de l’information géographique (adapté par l’auteure)

3.2.2.3 Variables de contrôle

Des variables de contrôle ont également été relevées pour bonifier les analyses. En effet, puisque selon le sexe, la longévité et les conséquences d’une exposition tôt dans la vie à une épidémie peuvent différer, nous considérerons cette caractéristique dans les analyses. Aussi, étant donnée l’amélioration de l’espérance de vie dans le temps, l’année de naissance est une variable importante. Elle permettra en effet de contrôler l’effet de cohorte (Jarry, Gagnon et Bourbeau 2012).

40

3.3 Méthodes d’analyse 3.3.1 Analyse descriptive

Dans un premier temps, nous présenterons la distribution de chaque caractéristique sociodémographique. Ensuite, afin de distinguer l’impact des différentes variables catégorielles, nous établirons des courbes de survie par Kaplan-Meier, de même que l’âge moyen au décès, ce qui nous permettra de comparer la survie après 40 ans de chacun des sous-groupes d’une variable. La différence de durée de vie selon la catégorie sera également vérifiée à l’aide des tests de log-rank et de Wilcoxon.

La méthode de Kaplan-Meir est une méthode d’estimation non paramétrique de la fonction de survie (Cleves et al. 2010). Des probabilités conditionnelles de survie sont calculées selon l’instant précis auquel des évènements se produisent (Cleves et al. 2010). Dans ce cas-ci, il s’agit de l’âge exact au décès. Ainsi, pour chaque âge au décès, une probabilité de survie est estimée à partir des individus qui ont survécu jusqu’à cet âge. Des courbes de survie distinctes sont déterminées pour chaque catégorie d’une variable. Pour vérifier statistiquement si ces fonctions de survie sont différentes selon les sous- groupes, le test de log-rank et le test Wilcoxon seront utilisés. Pour les deux tests, pour tous les âges au décès, le nombre d’évènements observés pour une catégorie est comparé au nombre d’évènements attendus si la fonction de survie est la même pour chacun des groupes. Cette comparaison est testée par la statistique de khi-deux (Cleves et al. 2010). De ce fait, si la statistique est significative, l’hypothèse nulle est rejetée, ce qui implique que la survie d’au moins un des sous-groupes est différente des autres. La différence entre les deux tests est que celui de Wilcoxon accorde plus de poids aux évènements qui se produisent au début de la période étudiée, alors que celui de log-rank en accorde plus aux évènements qui se produisent à la fin de la période (Cleves et al. 2010). L’utilisation des deux tests permettra d’avoir une première idée des variables dont l’effet pourrait varier dans le temps.

41

3.3.2 Analyse multivariée

Nous estimerons l’effet des variables décrites plus haut sur la durée de vie à l’aide de régressions multivariées hiérarchiques. Dans un premier temps, des modèles de Cox seront utilisés. Il s’agit d’un modèle de régression semi-paramétrique qui ne requiert pas d’hypothèse quant à la distribution des évènements dans le temps, soit dans ce cas-ci, le risque de décéder. Les coefficients sont calculés en maximisant la probabilité conditionnelle de décéder à chaque fois qu’un ou plusieurs évènements se produisent, en fonction des individus à risque à ce moment. Cette méthode suppose toutefois que l’hypothèse de proportionnalité est confirmée, c’est-à-dire que la forme du risque dans le temps doit être la même pour chacun (Cleves et al. 2010). L’hypothèse sera donc vérifiée à chaque modèle pour toutes les variables qui y sont incluses à l’aide du test basé sur les résidus de Schoenfeld. Dans le cas où les risques ne sont pas proportionnels pour une ou plusieurs variables catégorielles, une interaction avec le temps sera appliquée pour celles- ci. L’interaction avec le temps permet d’estimer pour chaque catégorie l’effet de la variable pour les individus décédés à 40 ans, de même que l’augmentation ou la diminution de l’effet pour les âges au décès supérieurs. Si c’est plutôt une variable continue qui ne vérifie pas l’hypothèse de proportionnalité, le test du polynôme fractionnaire sera utilisé. Ainsi, le modèle linéaire de la variable sera comparé au meilleur modèle de premier degré et au meilleur modèle de deuxième degré. Selon le test de différence de déviance, le meilleur sera choisi (Cleves et al. 2010).

Ensuite, les frères et les sœurs seront comparés entre eux à l’aide de régressions stratifiées par famille. De cette façon, les caractéristiques qu’ils partagent, comme les facteurs génétiques, et les conditions de vie dans l’enfance comme le lieu de résidence seront prises en compte, alors que celles qui varient d’un membre de la fratrie à l’autre, comme l’exposition à une épidémie, le sexe, l’année et la saison de naissance seront isolées. Cette méthode implique que les individus qui n’ont pas de frères ou sœurs ne seront pas considérés dans les analyses. De plus, les membres d’une même fratrie doivent être dans des catégories différentes pour toutes les variables pour être retenues dans les analyses. C’est en quelque sorte un désavantage de ce type de régression puisque ces

42

contraintes ont pour conséquence de diminuer la taille de l’échantillon et de nuire à l’inférence.

Un modèle paramétrique, si la forme du risque de base est connue, peut permettre d’obtenir une meilleure estimation des coefficients que le modèle de Cox (Cleves et al. 2010). Comme les modélisations de la mortalité sont souvent effectuées à partir des modèles de Gompertz (Cleves et al. 2010), cette méthode sera utilisée. De plus, le risque de décès pour notre base de données augmente de façon exponentielle avec le temps, comme c’est le cas pour la fonction de risque de Gompertz (Figure 3.4). On remarque que la tendance linéaire s’affaisse aux grands âges, ce qui caractérise la mortalité humaine (Vaupel 2010). Avant 45 ans, le risque de décès des hommes est plus faible que celui des femmes. On suppose que ce résultat est dû à une sous-estimation des décès des individus de sexe masculin avant cet âge.

Figure 3.4: Quotients quinquennaux de mortalité pour les décès de 40 ans ou plus selon le sexe, Québec

Puisque tous les éléments qui peuvent influencer l’âge au décès ne sont pas disponibles dans la base de données, des éléments individuels ayant un impact sur la survie peuvent être omis (hétérogénéité non observée). Les modèles de Gompertz vont donc considérer la fragilité à ce niveau afin d’ajuster les résultats. Comme il s’agit d’un choix répandu,

0,01 0,1 1 40 45 50 55 60 65 70 75 80 85 90 95 100 105 Âge au décès Hommes Femmes 5qx

43

nous supposons que la fragilité individuelle est distribuée selon une loi gamma (Cleves et

al. 2010). Aussi, une régression considèrera la fragilité partagée, car pour les membres

d’une même fratrie, elle n’est pas indépendante d’un individu à l’autre. Ainsi, à l’aide d’une variable indiquant le numéro de famille, la même fragilité sera appliquée pour tous les frères et sœurs, suivant encore une fois une distribution de gamma.

Pour identifier le meilleur modèle statistique, le test de ratio de vraisemblance sera utilisé pour les modèles emboités, ce qui indiquera si l’ajout d’une variable est pertinent ou non. Le Aikaike Information Criterion (AIC) sera employé pour les modèles de même type qui ne sont pas emboités. Cet indice permet de comparer les maximums de vraisemblances en pénalisant pour le nombre de paramètres estimés. Ainsi la plus petite valeur correspondra au meilleur ajustement (Cleves et al. 2010).

Comme dans plusieurs études des effets différents d’une exposition à une épidémie ont été trouvés pour les hommes et les femmes (Ravelli et al. 1999; Yang et al. 2008; Mazumder et al. 2010; Quaranta 2013; Lindeboom, Portrait et van den Berg 2010), une interaction entre la variable du sexe et la variable d’exposition sera testée. De plus, nous

Documents relatifs