• Aucun résultat trouvé

4.1 Analyses descriptives

Les analyses statistiques ont été réalisées à l’aide du logiciel SAS version 9.4 (SAS Institute, Inc., Cary, North Carolina). Le seuil de significativité a été fixé à 0,05 pour l’ensemble des tests statistiques effectués. Tous les tests étaient bilatéraux.

Dans le cadre de ce projet de thèse, les analyses descriptives ont été réalisées à l’aide de statistiques usuelles simples telles que moyenne, médiane, écart-type, percentiles, et calcul de corrélations (coefficient de corrélation de Pearson) pour les variables continues et description des fréquences pour les variables catégorielles.

En ce qui concerne les variables continues, les comparaisons entre les catégories d’adhésion au régime méditerranéen ou les catégories de consommation de compléments alimentaires ou la consommation d’agrumes et d’alcool ont été réalisées à l’aide d’analyses de variance (ANOVA, Analysis of

Variance), permettant de tester l’hypothèse d’égalité des moyennes entre les groupes comparés.

Pour les variables catégorielles, les comparaisons entre les catégories ont été réalisées à l’aide de tests du χ2, permettant de tester l’hypothèse d’une absence de différence entre les proportions observées dans les groupes comparés.

Dans l’étude E3N-SunExp, chez les témoins, un modèle de régression logistique univarié a été utilisé pour décrire le score d’adhésion au régime méditerranéen (en deux catégories) en relation avec différentes variables, notamment l’exposition solaire, l’utilisation de compléments solaires ainsi que l’utilisation de protection contre les UV.

Les caractéristiques des populations ont été décrites à l’inclusion pour les études portant sur les cohortes (E3N et EPIC), selon la variable d’exposition principale (score d’adhésion au régime méditerranéen, consommation de compléments alimentaires, consommation d’agrumes ou consommation d’alcool) ou le statut cas/non cas pour la cohorte E3N, et selon le pays pour la population EPIC. Les caractéristiques des participants de l’étude PMP ont été décrites selon l'épaisseur du mélanome au moment du diagnostic et selon les différents profils alimentaires.

4.2 Analyses de risque

4.2.1 Modèle de Cox : Etudes de cohorte (E3N et EPIC)

Les modèles à risques proportionnels de Cox ont été utilisés pour l’ensemble des analyses présentées des cohortes E3N et EPIC. En particulier, ce modèle a été utilisé afin d’étudier les associations entre le score d’adhésion au régime méditerranéen, la consommation de compléments alimentaires riches en antioxydants, d’agrumes ou d’alcool, et le risque de cancers cutanés.

Page | 123 Définition

Le modèle de Cox permet de modéliser la probabilité de survenue d’un cancer pour un individu à un instant t sachant qu’il n’a pas eu de cancer jusque-là (ou fonction de risque instantané), en fonction de variables explicatives et de l’instant t. Il permet donc de prendre en compte des temps de suivi différents selon les individus. Ce modèle a été proposé par le statisticien britannique Sir David Cox en 1972 (357) et constitue aujourd’hui la méthode la plus employée en épidémiologie et en biostatistique parmi l’ensemble des analyses de survie.

L’objectif de ce modèle permet de quantifier la relation entre le facteur d’exposition principal et la survenue d’un événement, en prenant en compte les données censurées. Dans le cas d’un modèle multivarié, le modèle de Cox exprime l’incidence instantanée (ou risque instantané) ℎ(𝑡) de l’événement en fonction du temps t et des valeurs que prennent les différentes covariables 𝑋𝑖 (pour un individu de profil 𝑋 = (𝑋1, 𝑋2, … 𝑋𝑝)) selon l’équation suivante :

h(t, Xi, … Xp) = ho(t) e

(∑ βiXi)=ho(t)exp (βX)

= h0(t)exp (βX)

Dans cette formule, ℎ0(𝑡) constitue le risque instantané de maladie d’un sujet pour lequel toutes les variables 𝑋𝑖 sont égales à 0, c’est à dire le risque instantané « de base ». Il s’agit de la partie « non paramétrée » du modèle. Ce modèle ne permet pas d’estimer un risque absolu en fonction des valeurs des différentes covariables pour un individu étant donné que la forme de sa fonction de risque instantané n’est pas précisée, mais il permet en revanche de comparer le risque des individus selon leur exposition aux facteurs correspondant aux variables 𝑋𝑖.

En effet, à partir de la fonction de risque instantané, on peut calculer un rapport de risques instantanés (hazard ratio, HR), noté HR(t), entre deux individus 1 et 2 de profils respectifs 𝑋1 et 𝑋1, qui s’écrit :

HR(t) =h(t, X1)

h(t, X2)=

ho(t)exp (βX1)

ho(t)exp (βX2)= exp (β(X1 − X2)

Le logarithme du rapport de risques s’exprime donc selon un terme linéaire. L’estimation des coefficients 𝛽𝑖 de la partie paramétrée du modèle est l’objectif du modèle de Cox, et se fait par la méthode d’estimation du maximum de vraisemblance, sur la partie de la vraisemblance du modèle qui ne concerne que les coefficients 𝛽𝑖. Les intervalles de confiance correspondant à ces coefficients ou aux HR sont ensuite calculés.

Un HR significativement supérieur à 1 (borne inférieure de l’intervalle de confiance supérieure à 1) traduit une association positive entre la variable d’intérêt et l’événement étudié, tandis qu’un HR significativement inférieur à 1 (borne supérieure de l’intervalle de confiance inférieure à 1) traduit une association inverse.

Page | 124 Hypothèses du modèle

Les hypothèses du modèle de Cox sont aux nombre de deux : la proportionnalité des risques et la log-linéarité des covariables du modèle.

L’hypothèse de la proportionnalité des risques peut être vérifiée de différentes façons, par exemple de manière visuelle, en comparant les courbes de survie des différents groupes comparés. On peut aussi comparer les courbes 𝐿𝑛 [−(𝑆(𝑡))] des groupes comparés, avec 𝑆(𝑡) la fonction de survie égale à

exp {−∫ ℎ(𝑢)𝑑𝑢 𝑡0 }

Pour un modèle simple avec une variable binaire 1/0, ℎ1(𝑡) = exp(𝛽) ℎ0(𝑡), cela implique que

𝐿𝑛(𝑆1(𝑡)) = exp(𝛽) 𝐿𝑛(𝑆0(𝑡)) , et donc finalement que 𝐿𝑛 [−𝐿𝑛(𝑆1(𝑡))] = 𝛽 + 𝐿𝑛 [−𝐿𝑛(𝑆0(𝑡))] .

Les courbes tracées doivent donc être parallèles pour respecter l’hypothèse de proportionnalité des risques. Une manière complémentaire d'évaluer cette hypothèse est d'introduire une interaction entre le temps et la variable dans le modèle de Cox et de regarder la significativité du paramètre correspondant. Si ce dernier n'atteint pas le seuil de significativité, on peut alors supposer que l'hypothèse de proportionnalité des risques est vérifiée. De plus, il est usuel d'avoir une attitude conservatrice vis-à-vis de la validité du modèle de Cox dans une étude de cohorte de taille si importante, sauf lorsqu'il y a une forte évidence de non-proportionnalité. Dans le cas où il existerait une interaction avec le temps, il faut stratifier sur les différentes périodes où l'on peut supposer que l’hypothèse est vérifiée.

L’expression du modèle de Cox implique de vérifier l’hypothèse de log-linéarité de l’augmentation du risque instantané quand on passe d’un niveau d’une variable à l’autre. En effet, la log-transformation de l’expression du risque instantané donne :

Ln[h(t, X1, X2, … Xp)] = Ln[h0(t)] + ∑ βiXipi = 1 = Ln[h0(t)] + βX

Pour vérifier cette hypothèse, il convient de modéliser le risque associé à la covariable concernée en la catégorisant selon ses quartiles de distribution. Si, en traçant les risques obtenus pour chaque quartile en fonction du centre de chaque classe de quartile, on obtient une droite, l’hypothèse de log-linéarité est respectée. Dans le cas contraire, il convient de ne pas incorporer la variable en continu dans le modèle et de la catégoriser en respectant les exigences médicales, la précision des données et la pertinence statistique.

Page | 125 L’âge comme échelle de temps

Le modèle de Cox a été mis au point, initialement, afin de modéliser le délai entre l’administration d’un traitement et le temps de rechute ou de décès dans le cadre d’essais cliniques. Le début de l’étude ou l’origine est alors l’entrée dans l’essai.

En revanche, dans les études de cohorte en épidémiologie, le début de l’exposition et le début de l’observation sont rarement identiques car, pour un grand nombre de maladies, les individus sont à risque de développer la maladie dès leur naissance, mais ne sont observés qu’à partir de l’inclusion dans l’étude. Dans ce cas précis, il est souvent préférable d’utiliser l’âge comme échelle de temps, c’est-à-dire de fixer l’origine à la date de naissance de l’individu (âge nul) et le début de l’observation à l’âge d’inclusion dans l’étude (on parle alors d’entrée retardée)(358).

En effet, l’âge, beaucoup plus que la durée de suivi, est un déterminant de l’incidence de la maladie étudiée. Cependant choisir l’âge comme échelle de temps implique de considérer, d’une part, que les individus ne sont pas suivis depuis l’origine et, d’autre part, que les individus ayant déjà rencontré l’événement (cas « prévalent » à l’inclusion) ne sont pas considérés dans la population d’analyse. Dans les deux cohortes (E3N et EPIC), l’âge au moment de la réponse aux questionnaires alimentaires a été calculé à partir de l’âge de naissance des participants et de la réponse déclarée sur le questionnaire ou du retour si cette dernière n’était pas remplie.

Effet cohorte

Le risque de développer un cancer n’est pas le même pour une femme selon son année de naissance ; et par exemple, il a été rapporté que le risque de développer un cancer pour une personne née en 1945 était deux fois plus élevé que pour une personne née en 1920, mais le risque est plus faible pour une femme née en 1950. Ce phénomène est appelé « effet cohorte » et il doit être pris en compte dans la modélisation des risques liés au cancer en attribuant aux différentes générations des risques de base différents. En ce qui concerne les cancers cutanés, nous l’avons évoqué précédemment, il existe également un effet cohorte. C’est pour cette raison que les modèles de Cox ont été stratifiés sur la cohorte de naissance, catégorisée en cinq classes, comme suit : 1925-1929, 1930-1934, 1935-1939, 1940-1945 et 1946-1950. Cette stratification autorise en effet un risque de base h0(t) différent pour chaque cohorte de naissance. Elle suppose néanmoins que les associations entre les covariables et le risque de la maladie étudiée soient identiques, quelle que soit la cohorte de naissance.

Pour effectuer cette stratification, la procédure strata du logiciel SAS a été utilisée, cette dernière estime le coefficient β par la maximisation du produit des fonctions de vraisemblance partielle de chaque strate.

Page | 126 Modélisation d’événements à risques compétitifs

Dans ce projet doctoral, nous avons été amenés à étendre la théorie du modèle de Cox « classique » au cas où la variable d’intérêt n’est plus binaire (du type sain/malade) mais catégorielle à plus de deux modalités, lorsque le risque de survenue d’un cancer cutané (mélanome et carcinomes cutanés) était étudié selon la localisation du cancer, ou la survenue d’un mélanome primaire selon les caractéristiques de la tumeur. Lorsqu'on s'intéressait à des événements multiples, à savoir lorsque plusieurs pathologies distinctes pouvaient survenir, nous avons utilisé une analyse de survie avec modélisation d’événements à risques compétitifs.

Deux modèles sont disponibles pour effectuer des analyses d’événements à risques compétitifs. La première fonction, appelée « fonction de risque cause-spécifique », consiste à décrire le risque instantané d’un type d’événement en présence des événements concurrents, parmi les individus indemnes de l’événement d’intérêt et des événements concurrents à l’instant t (359). En revanche, la seconde considère le risque d’un type d’événement en présence d’autres risques, parmi les individus indemnes de l’événement d’intérêt mais ayant potentiellement subi les événements concurrents (360). Les deux modèles sont largement utilisés mais il a été rapporté que la fonction de risque cause-spécifique était la plus appropriée aux études étiologiques et que la fonction de sous-répartition aux études s’intéressait plus à la prédiction du risque (361). Nous sommes bien en situation d'événements compétitifs (fonction de risque cause-spécifique) comme décrit par la première fonction, pour estimer les risques selon le type histologique de mélanome et la localisation de cancers cutanés. La fonction cause-spécifique consiste donc à modéliser séparément le risque de survenue de chaque cause (c’est-à-dire de chaque type et site) en censurant les autres causes en compétition. Nous avons donc pu modéliser le risque de cancer cutané en fonction de 2 ou 4 groupes, selon la localisation des cancers cutanés et le type histologique des mélanomes.

Test d’homogénéité

Nous avons calculé la statistique Q afin de tester l’homogénéité des résultats entre les types de cancers cutanés ou encore entre certaines sous-populations d’étude (par sexe, par pays), ou de comparer les estimations obtenues pour les types de compléments alimentaires, de consommation d’agrumes et d’alcool, ou encore les résultats par type et site de la tumeur (362).

Pour comparer les estimations, la statistique Q suit une loi de Chi2 à (p-1) degrés de liberté et s’écrit de la manière suivante :

Q = ∑β

j 2

s

j2 p j=1

βj sj2 2

1 sj2

Page | 127 Des estimations étaient considérées comme non homogènes si le test était significatif au seuil de 5%. Il est également important de noter que les statistiques Q sont identiques au test du Chi2 de Wald, sous condition que les paramètres soient effectués sur des groupes indépendants. Cependant, nous ne pouvons pas utiliser cette statistique pour comparer des événements non mutuellement exclusifs. Cette méthode a été décrite en détail dans le livre d’Allison Paul, intitulé Survival Analysis Using SAS: A

Practical Guide, publié en 1995 (363).

Etudes des interactions

Des tests d’interaction ont été utilisés afin d’étudier des différences éventuelles d’associations selon les sous-groupes de participant(e)s. Ces tests incluent un terme d’interaction entre le facteur d’exposition et le facteur d’interaction potentiel. La nullité du coefficient de régression associé au terme d’interaction était testée avec un test de Wald. Ensuite, nous avons également systématiquement stratifié les analyses selon les facteurs testés, dans le cas d’une interaction statistiquement significative. Un test d’interaction >0.05 était considéré comme statistiquement significatif.

4.2.2 Régression logistique conditionnelle : Etude cas témoin nichée (E3N Sun-Exp)

La régression logistique est un modèle qui permet d’exprimer l’association entre une variable dichotomique d’intérêt (le fait d’avoir ou non une forte adhésion au régime méditerranéen dans le cas de l’objectif scientifique) et des variables quantitatives ou qualitatives (ici, exposition solaire et autres facteurs cités dans l’étude E3N-SunExp). Ce modèle permet de calculer la probabilité de survenue de l’événement, mais ne permet pas de prendre en compte la date de survenue de l’événement, et il est adapté aux études cas-témoin.

E=1 signifie que l’individu a déclaré l’événement et E=0 que l’individu n’a pas déclaré l’événement. La probabilité d’être concerné par l’événement sachant l’exposition aux différentes variables explicatives (Xi) s’écrit alors :

P(E = 1|X1, … Xp) = 1

1 + e

(−(α+∑ βiXi)

Soit α l’intercept et β les coefficients associés aux variables explicatives. Les coefficients de régression sont estimés sur le même principe que l’estimation des coefficients dans un modèle de Cox, par la méthode du maximum de vraisemblance maximisant la probabilité d’obtenir la répartition de la variable d’intérêt E observée dans l’échantillon d’étude sachant le profil (X1…Xp) des individus.

On peut écrire le modèle logistique sous une forme linéaire :