• Aucun résultat trouvé

Étude de la performance d’un test d’association génétique pour des données familiales de survie en présence d’un biais de sélection

N/A
N/A
Protected

Academic year: 2021

Partager "Étude de la performance d’un test d’association génétique pour des données familiales de survie en présence d’un biais de sélection"

Copied!
119
0
0

Texte intégral

(1)

Étude de la performance d’un test d’association

génétique pour des données familiales de survie en

présence d’un biais de sélection

Mémoire

Maxime Tessier

Maîtrise en statistique - avec mémoire

Maître ès sciences (M. Sc.)

(2)

Étude de la performance d’un test d’association

génétique pour des données familiales de survie en

présence d’un biais de sélection

Mémoire

Maxime Tessier

Sous la direction de:

(3)

Résumé

Dans Leclerc et al. (2015, Genetic Epidemiology, 39 (6), 406-414), un test d’association entre un ensemble de variants génétiques et des phénotypes censurées en présence de dépendance familiale est proposé. Ce test a été implémenté dans une librairie R nommée gyriq. Dans ce mémoire de maîtrise, nous évaluons par simulations la performance de ce test en présence d’un biais de sélection dû au protocole de collecte de données. En effet, dans plusieurs situations, les données médicales d’une famille sont considérées si et seulement si un membre particulier de cette famille, appelé proband, est diagnostiqué de l’évènement d’intérêt au moment de son examen médical. Nous développons plusieurs stratégies pour générer des données biaisées selon ce protocole. Nous examinons l’erreur de type 1 et la puissance du test d’association avec de telles données, en présence d’un ou plusieurs proband et lorsque les proportions d’échantillon-nage conservent seulement les familles dont les probands ont développé l’évènement d’intérêt ou lorsqu’on conserve une proportion de cas où les probands n’ont pas eu l’évènement d’inté-rêt. Nous concluons que le test demeure valide en présence d’un biais de sélection mais que la puissance est réduite dans cette situation. De plus, le test n’est pas valide lorsque l’on inclut des familles où les probands n’ont pas développé l’évènement d’intérêt.

(4)

Abstract

In Leclerc et al. (2015, Genetic Epidemiology, 39 (6), 406-414), an association test between a group of genetic variants and censored phenotypes in presence of intrafamilial correlation is proposed. This test was implemented in a R package named gyriq. In this master’s thesis, we evaluate, with simulations, the performance of this test in presence of a sampling bias which stems from the data collection protocol. Indeed, in many situations, medical data from a family are considered if and only if a particular member of this family, called proband, is diagnosed with the event of interest during his medical exam. We develop multiple strategies to generate biased data according to such data collection protocol. We examine type 1 error and power of the association test in presence of such data, in the cases where there are 1 or more probands and when we sample only families where the probands have the event of interest or when we also sample a small proportion of families where the event has not occured for the probands. We conclude that the association test remains valid in presence of a selection bias but that the test power is diminished. Furthermore, the test is not valid when we include families where the event of interest has not occured for the probands.

(5)

Table des matières

Résumé ii

Abstract iii

Table des matières iv

Liste des figures vi

Avant-propos ix

Introduction 1

1 Données multivariées avec un biais de sélection : Formules théoriques 3

1.1 Cas de biais de sélection . . . 3

1.2 Conclusion . . . 19

2 Données multivariées avec un biais de sélection : Simulations 20 2.1 Simulations . . . 20

2.2 Résultats . . . 24

2.3 Conclusion . . . 39

3 Study of the performance of a genetic association test for familial sur-vival data in presence of selection bias. 40 3.1 Résumé . . . 40

3.2 Abstract . . . 40

3.3 Introduction. . . 41

3.4 Association test and data simulation . . . 42

3.5 Simulation parameters . . . 45 3.6 Results. . . 48 3.7 Conclusion . . . 56 3.8 References . . . 58 Conclusion 60 A Programmation R 62 A.1 Simulations pour schémas simplifiés. . . 62

A.2 Résultats théoriques pour schémas simplifiés . . . 68

(6)
(7)

Liste des figures

2.1 Espérance et variance de la variable A1 selon l’espérance du seuil B1 et à

diffé-rentes valeurs de variance pour B1 avec des cas à 1 proband. . . 25

2.2 Espérance et variance de la variable A2 selon l’espérance du seuil B1 et à

diffé-rentes valeurs de variance pour B1 avec des cas à 1 proband. . . 26

2.3 Covariance entre les variables A1et A2(gauche) et les variables A2et A3(droite) selon l’espérance du seuil B1 et à différentes valeurs de variance pour B1 avec

des cas à 1 proband. . . 28

2.4 Espérance et variance de la variable A1 selon l’espérance des seuil B1 et B2 et

à différentes valeurs de variance pour B1 et B2 avec le cas à 2 probands. . . 30

2.5 Espérance et variance de la variable A2 selon l’espérance des seuil B1 et B2 et

à différentes valeurs de variance pour B1 et B2 avec le cas à 2 probands. . . 31

2.6 Espérance et variance de la variable A3 selon l’espérance des seuil B1 et B2 et

à différentes valeurs de variance pour B1 et B2 avec le cas à 2 probands. . . 32

2.7 Covariance des variables A1et A2(gauche) et A1et A3(droite) selon l’espérance des seuil B1 et B2 et à différentes valeurs de variance pour B1 et B2 avec le cas

à 2 probands. . . 33

2.8 Covariance des variables A2et A3(gauche) et A3et A4(droite) selon l’espérance des seuil B1 et B2 et à différentes valeurs de variance pour B1 et B2 avec le cas

à 2 probands. . . 34

2.9 Espérance et variance de la variable A1 selon l’espérance du seuil B1 et à dif-férentes valeurs de variance pour B1 avec le cas à 1 proband en présence de

censure des probands et où on retient 10% des cas pour lesquels le proband est

censuré et 90% des cas pour lesquels le proband n’est pas censuré. . . 36

2.10 Espérance et variance de la variable A2 selon l’espérance du seuil B1 et à

dif-férentes valeurs de variance pour B1 avec le cas à 1 proband en présence de

censure des probands et où on retient 10% des cas pour lesquels le proband est

censuré et 90% des cas pour lesquels le proband n’est pas censuré. . . 37

2.11 Covariance des variables A1et A2(gauche) et A2et A3(droite) selon l’espérance

du seuil B1 et à différentes valeurs de variance pour B1 avec le cas à 1 proband en présence de censure des probands et où on retient 10% des cas pour lesquels

le proband est censuré et 90% des cas pour lesquels le proband n’est pas censuré. 38

3.1 QQPlot of the uniform distribution of the association test’s p-values under the

null hypothesis for the case with 0 probands per family. . . 49

3.2 QQPlot of the uniform distribution of the association test’s p-values under the null hypothesis for the case with 1 proband per family and 40% of censored

(8)

3.3 QQPlot of the uniform distribution of the association test’s p-values under the null hypothesis for the case with 2 probands per family and 40% of censored

observations. . . 51

3.4 QQPlot of the uniform distribution of the association test’s p-values under the null hypothesis for the case with 2 probands per family and a scale parameter

of 0.45 for the censoring variable. . . 52

3.5 QQPlot of the uniform distribution for the association test’s p-values under the null hypothesis for the case with 1 proband per family, 40% of censored obser-vations, 10% of censored probands retained and 10% of non-censored probands

rejected. . . 53

3.6 QQPlot of the uniform distribution for the association test’s p-values under the null hypothesis for the case with 2 proband per family, 40% of censored obser-vations, 10% of censored probands retained and 10% of non-censored probands

rejected. . . 54

3.7 Statistical power of the association test in function of the variance τ used to generate the coefficients for the genotypes under the alternative hypothesis. For

the case with 40% of censored observations. . . 55

3.8 Statistical power of the association test in function of the variance τ used to generate the coefficients for the genotypes under the alternative hypothesis. For

(9)

Je ne le dirai jamais assez, pour tout le support que vous m’avez offert au cours de mes années d’étude, merci Marielle, Martin, Samuel et Michaël

(10)

Avant-propos

Au moment de remettre ce mémoire, l’article scientifique, se trouvant au chapitre 3 de ce mémoire, est en processus de révision par le co-auteur. Il n’a donc pas encore été soumis à un journal scientifique. La version de l’article se trouvant dans le présent ouvrage est donc la version la plus à jour en date du 13 décembre 2019. J’en suis le premier auteur ayant rédigé, corrigé et fait les analyses nécessaires à sa production. M’Hamed Lajmi Lakhal Chaieb est le co-auteur de l’article ainsi que le directeur de recherche de ce mémoire.

(11)

Introduction

Dans Leclerc et al. (2015, genetic epidemiology, 39 (6), 406-414), un test d’association entre un ensemble de variants génétiques et des phénotypes censurées en présence de dépendance familiale est proposé. Ce test a été développé pour un échantillonnage aléatoire simple de familles. Il a ensuite été implémenté dans une librairie R appelée gyriq et rendu disponible sur le site web du "r-project" appelé CRAN. L’efficacité de ce test n’est donc pas à prouver pour l’échantillonnage aléatoire simple. Cependant, dans plusieurs études génétiques sur des familles, les familles ne sont pas sélectionnées de façon aléatoire. Pour un mode d’échantillon-nage assez répandu dans le domaine, les données médicales d’une famille sont considérées si et seulement si un ou plusieurs membres particuliers de cette famille, appelés probands, sont diagnostiqués de l’évènement d’intérêt au moment de leurs derniers examens médicaux. Le test d’association est adapté à la censure, c’est-à-dire que le test est valide lorsque l’évène-ment d’intérêt n’as pas encore eu lieu pour un individu en date de son dernier examen médical. L’âge de survenu de l’évènement d’intérêt n’est donc pas connu pour ces individus censurés. Avec la méthode de collecte de données par proband, les individus servant à la sélection des familles, les probands, ne sont pas censurés en général. En effet, l’évènement d’intérêt a déjà eu lieu pour ces individus et c’est ce qui détermine si toute la famille est incluse dans l’échantillon ou non. Les autres membres de la famille peuvent être censurés ou non.

Puisque nous sommes en présence de dépendance familiale, l’âge de survenue de l’évènement d’intérêt est corrélé entre les individus de la même famille (Leclerc et al., 2015). La distribution observée d’âge de survenue de l’évènement d’intérêt, pour les membres des familles qui ne sont pas probands pour leur famille, est affectée par le mode de recrutement et donc différentes de la distribution qui serait observée dans la population.

De plus, certaines familles pour lesquelles l’âge de survenue de la maladie du proband est censurée, sont parfois recrutées malgré le critère de sélection. En effet, parfois l’évènement d’intérêt n’est pas encore survenu au moment de l’examen médical, mais le médecin détecte des signes qui laissent croire que l’évènement d’intérêt surviendra certainement dans un futur rapproché pour le proband. C’est pourquoi certains probands et leurs familles sont recrutées malgré le fait que l’évènement d’intérêt ne soit pas survenu pour le proband. Dans le même ordre d’idées, certaines familles ne sont pas recrutées même si l’évènement d’intérêt est survenu

(12)

pour leur proband. Cela peut être expliqué par un refus de participer par exemple.

Nous nous intéressons donc, dans ce mémoire de maîtrise, à vérifier si ce test d’association reste valide lorsqu’un biais d’échantillonnage est créé par cette méthode de collecte de données. Dans un premier temps, nous observons l’effet d’un tel biais pour un cas simplifié. Nous créons le biais, induit par cette méthode de sélection des données, pour des données distribuées selon des lois normales multivariées. Les membres d’une même famille sont donc corrélés entre eux et les individus de différentes familles ont une corrélation nulle. Nous utilisons ce cas simplifié pour tester quelques méthodes de génération des données avec ce biais.

Ensuite, nous simulons des âges de survenue de l’évènement d’intérêt selon les paramètres du test d’association. Les paramètres des distributions sont ajustés selon les valeurs utlisées dans l’article de Leclerc et al. (2015). Nous vérifions la présence d’inflation d’erreur de type 1 et la puissance du test lorsque l’hypothèse nulle est vraie et lorsqu’elle est fausse. Nous validons également le test dans différentes conditions en changeant le nombre de probands par famille, en changeant le taux de censure chez les membres non-probands des familles et en vérifiant le cas où certaines familles sont recrutées alors que l’âge de survenue de l’évènement d’intérêt est censuré pour le proband.

(13)

Chapitre 1

Données multivariées avec un biais de

sélection : Formules théoriques

Afin d’illustrer le type de biais que l’on tente de créer et de tester quelques méthodes pour simuler des données biaisées, nous commençons avec quelques schémas utilisant des données qui suivent une loi gaussienne multivariée. Ce cas simplifié permet de visualiser facilement les données et de vérifier l’effet du biais engendré par le protocole de sélection par proband sur la distribution des données.

Nous génèrons donc des données biaisées par simulation et nous comparons les moyennes, les variances et les covariances empiriques aux formules théoriques obtenues. Le but est de valider les algorithmes que l’on utilise pour générer des données biaisées. Les algorithmes seront utilisés dans le chapitre 2 pour étudier la robustesse du test d’association développé dans Leclerc et al (2015).

1.1

Cas de biais de sélection

Nous présentons 3 schémas simplifiés pour les simulations des données. Pour ces schémas, la variable d’intérêt est nommée Ai avec i ∈ {1, 2, . . . , n}, où n correspond à la taille de

A = (A1, . . . ,An)T. Pour les cas qui suivront nous faisons l’hypothèse que la variable aléatoire

A suit une loi gaussienne multivariée telle que :

A ∼ Nn(µ, Σ)

Le vecteur A contient donc les n variables d’intérêt Ai. La moyenne µ est un vecteur de taille n contenant les moyennes de la distribution pour chacune des n variables d’intérêt. Nous faisons l’hypothèse que ces moyennes sont égales à 0 pour tous les cas. La matrice Σ est une

(14)

matrice carrée d’ordre n contenant les covariances des variables d’intérêt. Les éléments de la diagonale pour cette matrice sont tous fixés à 1 et les éléments hors-diagonale sont fixés à 0.5. Ces valeurs de variances et de covariances, entre les variables d’intérêt, sont conservées pour tous les schémas qui seront présentés au cours du présent chapitre.

Une autre variable aléatoire importante est celle pour la censure, que nous noterons Bi, où i ∈ {1, 2, . . . , n} est l’indice qui donne la position i dans le vecteur A de la variable de censure. Cette variable sert donc à la sélection des vecteurs A. Dans la sélection par proband nous conservons les familles où le proband a une valeur de la variable d’intérêt, Ai, qui est supérieure ou inférieure, selon nos critères, au seuil Bi. Le nombre de probands utilisés peut

varier, mais lorsque tous les probands ont une valeur pour leur variable d’intérêt qui respecte le critère de sélection des probands selon le seuil Bi, tout le vecteur A est alors retenu dans l’échantillon. Nous faisons l’hypothèse que les seuils Bi suivent la même loi gaussienne :

Bi ∼ N (µB, σ2B).

Selon nos hypothèses, les seuils Bi sont indépendants entre eux et ils sont également tous

indépendants de toutes les variables d’intérêt Ai. Pour la présentation des cas, nous laissons

la moyenne µB et la variance σB2 libres. Lors des simulations, nous fixerons des valeurs pour l’espérance et la variance de cette distribution, ils prendront alors les mêmes valeurs peu importe la valeur de l’indice i.

1.1.1 Schéma avec 1 proband

Pour le premier schéma, un vecteur A est inclus dans l’échantillon si et seulement si A1 < B1.

Pour qu’un vecteur A soit inclus dans l’échantillon, la variable d’intérêt A1, pour le proband,

doit avoir une valeur inférieure à celle de la variable de censure B1. Puisque les Aisont corrélés

entre eux, la sélection par proband affecte non seulement la distribution après la sélection des vecteurs retenus dans l’échantillon, de la variable d’intérêt pour le proband mais également la distribution de la variable d’intérêt pour les autres Ai du vecteur A. Ce mode de sélection a comme conséquence qu’aucun proband n’est censuré dans l’échantillon final puisque Ai est dit censuré seulement lorsque Ai > Bi, alors que les variables d’intérêt Ai pour les autres

individus non-probands peuvent être censurés.

Nous passons ensuite à l’étude des distributions théoriques obtenues suite à la sélection par proband. Pour les probands, nous nous intéressons au biais engendré par l’utilisation de ce mode de sélection sur l’espérance et la variance de la variable d’intérêt Ai. Nous nous

intéres-sons donc à l’espérance et la variance de variable d’intérêt A1et les espérances et les variances pour les variables d’intérêt qui ne servent pas de proband, donc Ai où i 6= 1. Puisque nous

(15)

même vecteur A, l’effet de la sélection par proband sur l’espérance et la variance de la variable d’intérêt est la même peu importe la valeur de l’indice i pour i ∈ {2, 3, . . . , n}. Nous étudions donc seulement les valeurs des paramètres d’espérance et de variance de la distribution pour le deuxième élément du vecteur (i = 2) de chaque vecteur A. Pour la covariance, nous nous intéressons à la covariance Cov(Ai, Aj|A1 < B1) pour les cas où (i = 1, j 6= 1) et le cas où

(i 6= 1, j 6= 1). Donc nous nous intéressons à la covariance, après inclusion dans l’échantillon, entre la variable d’intérêt pour le proband et une autre variable d’intérêt et à la covariance pour le cas de deux variables d’intérêt qui ne sont pas probands. Sans perte de généralité, nous nous intéresserons donc à deux covariances Cov(A1, A2|A1 < B1) et Cov(A2, A3|A1 < B1).

Avant de débuter l’étude des résultats théoriques, nous rappelons les formules suivantes qui nous serviront au cours des analyses.

E(X) = Z ∞

−∞

xf (x)dx

V ar(X) = E(X2) − E(X)2 = Z ∞ −∞ x2f (x)dx − Z ∞ −∞ xf (x)dx 2

Cov(X1,X2) = E(X1X2) − E(X1)E(X2) =

Z ∞ −∞ Z ∞ −∞ x1x2f (x1, x2)dx1dx2− Z ∞ −∞ x1f (x1)dx1  Z ∞ −∞ x2f (x2)dx2  E(X) = EY(E[X|Y ])

V ar(X) = EY(V ar[X|Y ]) + V arY(E[X|Y ])

Cov(X,Y ) = EY(Cov[X,Y |Z]) + CovY(E[X|Z],E[Y |Z])

Nous nous penchons donc sur les formules théoriques des distributions. Les formules sont présentées étape par étape afin de faciliter la compréhension de leur origine. Nous commençons par fixer la valeur du seuil Bi à bi. Puisque les seuils ne sont plus aléatoires, les formules sont beaucoups plus simple à développer. Nous laisserons ensuite Bi varier aléatoirement et

adapterons nos résultats en conséquence.

Nous obtenons donc la fonction de répartition suivante pour la variable A1conditionnellement

(16)

FA1(a1|A1 < b1) = P (A1< a1|A1 < b1) =    P (A1<a1) P (A1<b1), si a1 < b1 1, sinon =    Φ(a1) Φ(b1), si a1< b1 1, sinon

Nous utilisons la notation Φ(b1) pour la fonction de répartition de la loi gaussienne afin d’alléger le texte. Nous avons donc Φ(b1) = P (A1< b1) avec la variable A1 distribuée selon la

loi gaussienne.

Nous utilisons également la notation φ(b1) pour la fonction de densité de la loi gaussienne afin d’alléger le texte. Nous avons donc φ(b1) = √1

2πexp

−(b1)2

2 comme fonction de densité de la

variable A1 évaluée à la valeur b1.

Rappelons que l’espérance et la variance de la distribution de A1, sont fixées à E[A1] = 0 et V ar[A1] = 1, d’où les résulats obtenus pour la fonction de répartition et les résultats suivants.

Ensuite, en dérivant la fonction de répartition par rapport à a1, nous obtenons la fonction de

densité suivante pour A1 :

fA1(a1|A1 < b1) =    φ(a1) Φ(b1), si a1 < b1 0, si a1 ≥ b1 .

À partir de cette fonction de densité, nous pouvons obtenir la fonction génératrice des moments (FGM). Grâce à la FGM nous calculons le premier et le deuxième moment afin d’obtenir l’espérance et la variance de la variable A1 :

M (t) = E(etA1|A 1< b1) = e t2 2 Φ(b1− t) Φ(b1) .

En dérivant la FGM par rapport à t et, par la suite, en appliquant t = 0, nous obtenons l’espérance suivante :

E(A1|A1 < b1) =

−φ(b1)

Φ(b1)

.

Nous calculons ensuite la dérivée seconde de la FGM par rapport à t et appliquons ensuite t = 0. Nous obtenons ainsi la variance suivante :

V ar(A1|A1 < b1) = 1 − b1φ(b1) Φ(b1) − −φ(b1) Φ(b1) 2 .

(17)

Rappelons que cette espérance et que cette variance sont obtenues en fixant la valeur de la variable aléatoire B1 à b1. Adaptons maintenant ces résultats pour B1 en tant que variable aléatoire. Pour l’espérance, nous obtenons l’équation suivante :

E(A1|A1 < B1) = EB1[EA1(A1|A1< b1)] = Z ∞ −∞ −φ(b1) Φ(b1) fB1(b1)db1.

Notons que EB1(X) est l’espérance selon B1 de X.

Avec l’aide de la loi de la variance totale nous obtenons l’équation suivante pour la variance :

V ar(A1|A1< B1) = EB1[V arA1(A1|A1 < b1,B1 = b1)] + V arB1[EA1(A1|A1 < b1,B1 = b1)] = − Z ∞ −∞ b1 φ(b1) Φ(b1) fB1(b1)db1+ ( Z ∞ −∞ φ(b1) Φ(b1) fB1(b1)db1) 2.

Nous passons maintenant aux distributions marginales, à l’espérance marginale et la variance marginale pour les variables Ai qui ne servent pas de probands (i ∈ (2, 3, . . . , ∞)). La

distri-bution de la variable d’intérêt Ai pour les autres variables du vecteur A est affectée par la

sélection par proband. Donc, la distribution de la variable Ai pour i ∈ {2, 3, ..., ∞} n’est plus simplement une distribution normale mais plutôt la distribution marginale d’une variable sans troncature dans une loi normale multivariée tronquée pour la première variable. Nous nous intéressons donc à la distribution de la variable A2 sachant que la valeur de A1 est inférieure à la valeur B1. Sans perte de généralité, cette distribution est la même que celle des autres

cas qui ne sont pas probands. Encore une fois, pour commencer, nous fixons la valeur du seuil B1 à la valeur constante b1 afin de simplifier les première fomules. La fonction de répartition

de la variable A2 sachant que A1 < B1 est alors :

P (A2< a2|A1 < b1) = Rb1 −∞ Ra2 −∞φ2(s,t)dsdt Φ(b1) .

Afin d’alléger le texte, nous utilisons la notation φ2(s,t) pour la fonction de densité de la loi gaussienne bivariée qui s’écrit :

φ2(s,t) =

exp(−12(x − µ)TΣ−1(x − µ)) p(2π)2 | Σ |

avec le vecteur µ contenant les espérances pour chacune des deux variables aléatoires S et T, x = (s,t)T et Σ la matrice de covariance de la distribution. Ensuite, en dérivant cette fonction de répartition par rapport à a2, nous obtenons la fonction de densité suivante pour la variable

(18)

fA2(a2|A1 < b1) =

Rb1

−∞φ2(s,a2)ds

Φ(b1)

À partir de cette fonction de densité nous pouvons obtenir l’expression de l’espérance de A2

sachant que A1< b1 : E(A2|A1 < b1) = 1 Φ(b1) Z ∞ −∞ t Z b1 −∞ φ2(s,t)dsdt.

Ainsi que la variance de A2 sachant que A1< b1 :

V ar(A2|A1< b1) = E(A22|A1< b1) − E(A2|A1< b1)2 =

Z ∞ −∞ t2 Rb1 −∞φ2(s,t)ds Φ(b1) dt − Z ∞ −∞ t Rb1 −∞φ2(s,t)ds Φ(b1) dt !2 .

Nous avons donc obtenu l’espérance et la variance de A2. Puisque A1 et A2 sont corrélées, nous avons une covariance. Cette covariance est la même pour toutes les paires de variables d’intérêt où une des deux variables est celle du proband (i = 1) et la deuxième variable ne sert pas de proband (i ∈ {2, 3, . . . , n}). Nous avons donc la covariance suivante, sachant que A1< b1 :

Cov(A1,A2|A1 < b1) = E(A1A2|A1 < b1) − E(A1|A1 < b1)E(A2|A1 < b1) =

Z ∞ −∞ Z b1 −∞ stφ2(s,t) Φ(b1) dsdt − Z ∞ −∞ t Rb1 −∞φ2(s,t)ds Φ(b1) dt× Z b1 −∞ s R∞ −∞φ2(s,t)dt Φ(b1) ds.

Également, nous avons que A2 est corrélé avec A3. Il y a donc également une covariance entre les cas qui ne sont pas probands, c’est-à-dire lorsque i ∈ {2, 3, . . . , ∞} pour les deux individus. Nous avons donc la covariance suivante, sachant que A1 < b1 :

Cov(A2,A3|A1 < b1) = E(A2A3|A1 < b1) − E(A2|A1 < b1)E(A3|A1 < b1) =

Z ∞

−∞

Z ∞

−∞

tuφ2(t,u|A1 < b1)dtdu −

Z ∞

−∞

Z ∞

−∞

uφ2(t,u|A1< b1)dtdu×

Z ∞

−∞

Z ∞

−∞

tφ2(t,u|A1 < b1)dudt.

Maintenant que les formules théoriques sont obtenues pour l’espérance, la variance et les covariances pour les cas qui ne sont pas probands et lorsque la variable de censure B1 est fixée

(19)

µB1 et de variance σ 2

B1. Afin d’alléger la notation nous n’expliciterons pas les formules sous

forme d’intégrales. Nous obtenons, pour l’espérance de A2 sachant que A1 < B1, la formule

suivante : E(A2|A1 < B1) = EB1 Z ∞ −∞ A2 RB1 −∞f (A1,A2)dA1 Φ(B1) dA2 ! .

Encore une fois, à l’aide de la loi de la variance totale nous obtenons l’équation suivante pour la variance de A2 sachant que A1 < B1 :

V ar(A2|A1 < B1) = EB1(V arA2[A2|A1 < b1, B1= b1]) + V arB1(EA2[A2|A1 < b1, B1= b1]).

Pour la covariance entre A1et A2, c’est-à-dire la covariance entre les variables d’intérêt pour le

proband et n’importe quel autre cas du vecteur A, nous utilisons la loi de la covariance totale qui est une adaptation de la loi de la variance totale. Nous obtenons l’équation suivante :

Cov(A1,A2|A1 < B1) =

EB1[Cov(A1,A2|A1 < b1)] + CovB1[EA1(A1|A1 < b1),EA2(A2|A1 < b1)] .

Finalement, pour la covariance entre A2et A3, c’est-à-dire la covariance des variables d’intérêt

pour deux cas qui ne sont pas probands, nous obtenons, en utilisant la loi de la covariance totale :

Cov(A2,A3|A1 < B1) =

EB1[Cov(A2,A3|A1 < b1)] + CovB1[EA2(A2|A1 < b1),EA3(A3|A1 < b1)] .

1.1.2 Cas avec 2 probands

Dans cette section, nous avons maintenant deux probands dans chacun des vecteurs A. C’est-à-dire que les deux probands doivent avoir une valeur de leur variable d’intérêt, A1 et A2,

inférieure à leurs valeurs de seuil associées, B1 et B2 respectivement et sont donc non-censurés dans l’échantillon final. Nous devons donc avoir A1 < B1 et A2 < B2 pour qu’un vecteurA soit

retenu dans l’échantillon. Pour l’indice i du vecteur A, nous avons que i ∈ {1, 2, . . . , n}. Sans perte de généralité, et pour alléger les formules, nous supposons que les cas où i = 1 et i = 2 sont les deux probands. Une fois la sélection des vecteurs faite, cette loi gaussienne se retrouve tronquée aux deux seuils B1 et B2. Nous avons alors que A1< B1 et que A2 < B2.

(20)

La double troncation de la loi gaussienne multivariée affecte la distribution des variables aléatoires Ai. Les distributions conditionnelles des variables d’intérêt sont différentes de celles pour le cas à un seul proband par vecteur A de la section précédente. Sans perte de généralité, l’effet de cette troncation sur la distribution marginale de la variable d’intérêt A1 sachant que A1 < B1 et A2 < B2 est le même que pour la variable d’intérêt A2 sachant que A1 < B1

et A2 < B2. Nous explicitons donc les formules pour A1 seulement puisqu’elles ont la même

forme pour A2. Nous procédons selon la même méthode que pour la section précédente, c’est-à-dire que nous fixons les variables aléatoires B1 et B2 à des valeurs constantes b1 et b2 pour

simplifier l’obtention des formules d’espérances, de variances et de covariances en premier lieu. Nous laissons ensuite varier aléatoirement les seuils et ajustons les formules obtenues.

Les formules seront illustrées pour des distributions avec i ∈ {1,2,3,4} pour le vecteur A. Nous pourrons ainsi faire ressortir l’espérance de la variable d’intérêt pour les probands et pour les Ai qui ne sont pas probands, la variance de la variable d’intérêt pour les probands et

la variance pour la variable d’intérêt Ai qui ne sont pas probands et finalement les covariances entre les probands, entre un proband et un Ai qui n’est pas proband et la covariance entre 2

Ai qui ne sont pas probands. Sans perte de généralité, les formules de covariance entre les cas

où i = 3 et i = 4 (non-probands) sont les mêmes que celle pour toutes les autres paires de Ai non-probands (Cov[Ai, Aj] ∀ i 6= j, i ∈ {3, 4, . . .}j ∈ {3,4, . . .}).

Afin d’alléger le texte, nous utilisons la notation φ3(s,t,u) pour la fonction de densité de la loi

gaussienne à 3 variables qui s’écrit :

φ3(s,t,u) =

exp(−12(x − µ)TΣ−1(x − µ)) p(2π)3| Σ | ,

où x est un vecteur contenant les espérances de longueur 3 et Σ est une matrice de covariance 3 par 3.

Nous utilisons également la notation φ4(s,t,u,v) pour la fonction de densité de la loi gaussienne à 4 variables qui s’écrit :

φ2(s,t) =

exp(−12(x − µ)TΣ−1(x − µ)) p(2π)4 | Σ |

où x est un vecteur contenant les espérances de longueur 4 et Σ est une matrice de covariance 4 par 4.

Dans ces conditions, nous avons la fonction de répartition suivante pour A1 sachant que A1< b1 et que A2< b2 :

(21)

P (A1 < a1|A1< b1,A2< b2) =              Z a1 −∞ Z b2 −∞ φ2(s,t)dtds Z b1 −∞ Z b2 −∞ φ2(s,t)dtds , si a1 < b1 1, sinon .

En dérivant cette fonction de répartition par rapport à a1, nous obtenons la fonction de densité suivante : fA1(a1|A1 < b1,A2 < b2) =      Rb2 −∞φ2(a1,t)dt Rb1 −∞ Rb2 −∞φ2(s,t)dtds , si a1 < b1 0, sinon .

Avec cette fonction de densité, il est possible d’obtenir l’espérance de A1 sachant que A1 < b1

et A2< b2.

E(A1|A1 < b1,A2< b2) =

Z b1 −∞

sfA1(s|A1 < b1,A2 < b2)ds

Avec la même fonction de densité, nous obtenons la variance suivante :

V ar(A1|A1 < b1,A2 < b2) =

Z b1 −∞

s2fA1(s|A1 < b1,A2 < b2)ds − E(A1|A1 < b1,A2 < b2)

2.

Nous passons maintenant à l’effet de la double troncation sur la fonction de répartition mar-ginale de A3. Nous commencons avec la fonction de répartition de A3 sachant que A1< b1 et

que A2 < b2 qui est la même que la fonction de répartition pour les variables d’intérêts des

autres Ai qui ne sont pas probands. Nous avons donc la fonction de répartition suivante :

P (A3 < a3|A1< b1,A2 < b2) = Rb1 −∞ Rb2 −∞ Ra3 −∞φ3(s,t,u)dudtds Rb1 −∞ Rb2 −∞φ2(s,t)dtds .

Ensuite, en dérivant la fonction de répartition par rapport à a3, nous obtenons la fonction de

densité marginale suivante :

fA3(a3|A1 < b1,A2 < b2) = Rb1 −∞ Rb2 −∞φ3(s,t,a3)dtds Rb1 −∞ Rb2 −∞φ2(s,t)dtds .

(22)

À partir de cette fonction de densité nous obtenons l’espérance suivante pour A3 sachant que A1< b1 et que A2< b2 : E(A3|A1 < b1,A2 < b2) = Z ∞ −∞ ufA3(u|A1< b1,A2< b2)du.

Nous obtenons également la variance de A3 sachant que A1< b1 et que A2< b2 :

V ar(A3|A1 < b1,A2 < b2) =

Z ∞

−∞

u2fA1(u|A1 < b1,A2< b2)du − E(A3|A1< b1,A2< b2)

2.

Afin de calculer les covariances entre les Aid’un même vecteur A, nous avons également besoin de la fonction de répartition bivariée de A1 et A2 sachant que A1 < b1 et que A2 < b2 :

P (A1 < a1,A2 < a2|A1 < b1,A2 < b2) =              Z a1 −∞ Z a2 −∞ φ2(s,t)dtds Z b1 −∞ Z b2 −∞ φ2(s,t)dtds , si a1< b1 et a2< b2 1, sinon .

En dérivant cette fonction de répartition par rapport à a1 et par rapport à a2 nous obtenons

la fonction de densité suivante :

fA1,A2(a1,a2|A1< b1,A2< b2) =          φ2(a1,a2) Z b1 −∞ Z b2 −∞ φ2(s,t)dtds , si a1 < b1 et a2 < b2 0, sinon .

Nous avons également besoin de la fonction de répartition bivariée de A1 et A3 :

P (A1 < a1,A3 < a3|A1 < b1,A2 < b2) = Z a1 −∞ Z b2 −∞ Z a3 −∞ φ3(s,t,u)dudtds Z b1 −∞ Z b2 −∞ φ2(s,t)dtds .

En dérivant cette fonction de répartition par rapport à A1 et par rapport à A3 nous obtenons

(23)

fA1,A3(a1,a3|A1< b1,A2< b2) =              Z b2 −∞ φ3(a1,t,a3)dt Z b1 −∞ Z b2 −∞ φ2(s,t)dtds , si a1 < b1 0, sinon .

Finalement nous avons besoin de la fonction de répartition bivariée de A3 et A4 :

P (A3 < a3,A4< a4|A1 < b1,A2 < b2) = Z b1 −∞ Z b2 −∞ Z a3 −∞ Z a4 −∞ φ4(s,t,u,v)dvdudtds Z b1 −∞ Z b2 −∞ φ2(s,t)dtds .

En dérivant cette fonction de répartition par rapport à a3 et par rapport à a4 nous obtenons la fonction de densité suivante :

fA3,A4(a3,a4|A1 < b1,A2 < b2) = Z b1 −∞ Z b2 −∞ φ4(s,t,a3,a4)dtds Z b1 −∞ Z b2 −∞ φ2(s,t)dtds .

Avec les dernières fonctions de densités bivariées, nous pouvons maintenant obtenir les formules des covariances. Pour la covariance entre A1 et A2 sachant que A1 < b1 et que A2 < b2 (i.e.

la covariance entre les deux variables d’intérêt des deux probands), nous obtenons la formule suivante : Cov(A1, A2|A1 < b1,A2 < b2) = Z b1 −∞ Z b2 −∞ s × tfA1,A2(s, t|A1 < b1,A2< b2)dtds− E(A1|A1 < b1,A2< b2) × E(A2|A1< b1,A2< b2).

Pour la covariance entre A1 et A3 sachant que A1< b1 et que A2 < b2 (i.e. la covariance entre

les deux variables d’intérêt pour un proband et un cas qui n’est pas proband), nous obtenons la formule suivante :

(24)

Z b1 −∞ Z ∞ −∞ s × ufA1,A3(s,u|A1 < b1,A2 < b2)duds− E(A1|A1 < b1,A2< b2) × E(A3|A1< b1,A2< b2).

Pour la covariance entre A3 et A4 sachant que A1< b1 et que A2 < b2 (i.e. la covariance entre

les deux variables d’intérêt pour deux cas qui ne sont pas probands), nous obtenons la formule suivante : Cov(A3, A4|A1 < b1,A2 < b2) = Z ∞ −∞ Z ∞ −∞

u × vfA3,A4(u, v|A1 < b1,A2 < b2)dvdu−

E(A3|A1 < b1,A2< b2) × E(A4|A1< b1,A2< b2).

Pour finaliser les formules théoriques pour le cas avec deux probands par vecteur A, nous laissons maintenant les variables aléatoires B1 et B2 varier aléatoirement. Rappelons que ces variables aléatoires suivent des lois gaussiennes univariées et indépendantes. Pour évaluer les résultats de nos simulations, nous évaluons les prochaines formules pour différentes valeurs d’espérance et de variance pour ces deux variables aléatoires. Les formules d’espérances finales pour les variables A1 et A3 sachant que A1 < B1 et que A2 < B2 sont donc :

E(A1|A1 < B1,A2 < B2) = EBi[EA1(A1|A1 < b1,A2 < b2,B1 = b1,B2 = b2)] .

L’espérance de A1 a la même forme que l’espérance pour A2 dans notre cas. La forme pour

A3 est différente et nous obtenons la formule suivante :

E(A3|A1 < B1,A2 < B2) = EBi[EA3(A3|A1 < b1,A2 < b2,B1 = b1,B2 = b2)] .

Pour les variances, nous utilisons encore une fois la loi de la variance totale et nous obtenons les formules suivantes :

V ar(A1|A1 < B1,A2 < B2) = EBi[EA1(A1|A1< b1,A2 < b2,B1 = b1,B2 = b2)] +

V arBi[EA1(A1|A1 < b1,A2 < b2,B1 = b1,B2 = b2)] ,

que l’on peut encore une fois généraliser à A2. Pour A3 nous avons :

V ar(A3|A1 < B1,A2 < B2) = EBi[EA3(A3|A1< b1,A2 < b2,B1 = b1,B2 = b2)] +

(25)

Finalement, en utilisant la loi de covariance totale, nous obtenons les covariances suivantes :

Cov(A1, A2|A1 < B1,A2 < B2) = EBi[CovA1,A2(A1, A2|A1 < b1,A2 < b2,B1 = b1,B2 = b2)] +

CovBi[EA1(A1|A1< b1,A2 < b2,B1 = b1,B2 = b2), EA3(A3|A1 < b1,A2 < b2,B1 = b1,B2 = b2)]

Cov(A1, A3|A1 < B1,A2 < B2) = EBi[CovA1,A3((A1, A3|A1 < b1,A2 < b2,B1 = b1,B2 = b2)] +

CovBi[EA1(A1|A1< b1,A2 < b2,B1 = b1,B2 = b2), EA3(A3|A1 < b1,A2 < b2,B1 = b1,B2 = b2)]

Cov(A3, A4|A1 < B1,A2 < B2) = EBi[CovA3,A4((A3, A4|A1 < b1,A2 < b2,B1 = b1,B2 = b2)] +

CovBi[EA3(A3|A1< b1,A2 < b2,B1 = b1,B2 = b2), EA4(A4|A1 < b1,A2 < b2,B1 = b1,B2 = b2)] .

1.1.3 Cas en présence de censure des probands

Le critère de sélection par proband des sections précédentes, où l’on conservait seulement les familles pour lesquelles la variable d’intérêt pour les probands était inférieure au seuil, faisait donc en sorte qu’aucun proband n’avait de valeur censurée pour la variable d’intérêt. En réalité, ce n’est pas toujours le cas avec ce mode de sélection. Dans cette section, nous validons donc nos méthodes de simulations pour des cas où une proportion des vecteurs A où les probands sont censurés sont inclus dans l’échantillon final et une proportion des vecteurs A où les probands ne sont pas censurés ne sont pas inclus dans l’échantillon final.

Lors de la sélection par probands, généralement, les valeurs des Ai, qui sont supérieures au

seuil Bi, c’est-à-dire censurées, ne sont pas connues. Pour nos simulations, nous supposons que

nous connaissons tout de même ces valeurs. Cela nous permet d’observer l’effet de l’inclusion de ces cas sur les distributions et sur les statistiques descriptives. Cela nous permet de s’assurer que les simulations donnent bien les résultats désirés.

En premier lieu, nous observons l’effet de l’inclusion de vecteurs dont le proband est censuré lorsque le mode de sélection est celui avec un seul proband par vecteur A. Nous reprenons donc la même notation utilisée pour la section 1.1.1. Les Ai sont toujours distribués selon une

loi gaussienne d’espérance 0 et de variance égale à 1. Nous ajoutons deux constantes dans les modèles, soit p0 qui représente la probabilité de retenir dans l’échantillon un vecteur A pour lequel A1 < B1 et p1 qui représente la probabilité de retenir dans l’échantillon un vecteur A

pour lequel A1 ≥ B1. Pour l’ordre de grandeur dans nos vérifications, nous avons que p0 et 1 − p1 sont grands, donc autour de 0.9. Les formules de cette section seront donc présentées

(26)

1. On génère A et B1.

2. Si A1 < B1 on conserve A dans l’échantillon avec une probabilité p0. Par exemple, une

famille dont le proband est non-censuré est conservée avec une probabilité p0.

3. Si A1 > B1 on conserve A dans l’échantillon avec une probabilité p1. Par exemple, une

famille dont le proband est censuré est conservée avec une probabilité p1.

Nous commençons par fixer B1à la valeur constante b1 afin de simplifier les premiers résultats

théoriques. Nous avons donc la fonction de répartition marginale suivante pour A1 sachant que nous incluons p0 ∈ [0,1] soit une proportion p0 des cas où A1 < B1 et que nous incluons

p1∈ [0,1] soit une proportion p1 des cas où A1≥ B1 :

P (A1< a1|H) =    p0P (A1<a1) p0P (A1<b1)+p1P (A1≥b1), si a1< b1 p0P (A1<b1)+p1(P (A1<a1)−P (A1<b1)) p0P (A1<b1)+p1P (A1≥b1) , si a1≥ b1 =    p0Φ(a1) p0Φ(b1)+p1(1−Φ(b1)), si a1 < b1 p0Φ(b1)+p1(Φ(a1)−Φ(b1)) p0Φ(b1)+p1(1−Φ(b1)) , si a1 ≥ b1 .

En dérivant cette fonction de répartition par rapport à a1 nous obtenons la fonction de densité

suivante : fA1(a1|H, B1= b1) =    1 (p0Φ(b1))+(p1(1−Φ(b1))p0φ(a1), si a1 < b1 1 (p0Φ(b1))+(p1(1−Φ(b1))p1φ(a1), si a1 ≥ b1 .

À partir de cette fonction de densité nous pouvons obtenir les formules pour l’espérance de A1 et sa variance. E(A1|H,B1= b1) = Z −∞ −∞ sfA1(s|H)ds V ar(A1|H,B1 = b1) = Z −∞ −∞ s2fA1(s|H)ds  − Z −∞ −∞ sfA1(s|H)ds 2

Nous laissons maintenant varier B1 selon la loi gaussienne et réévaluons l’espérance et la variance de A1sous cette nouvelle condition. Nous obtenons cette expression pour l’espérance :

E(A1|H) = EB1 Z −∞ −∞ sfA1(s|H,B1 = b1)ds  .

(27)

V ar(A1|H) = EB1 ( Z −∞ −∞ s2fA1(s|H,B1= b1)ds  − Z −∞ −∞ sfA1(s|H,B1= b1)ds 2) + V arB1 Z −∞ −∞ sfA1(s|H,B1 = b1)ds  .

Nous passons ensuite à l’effet de la troncation sur le reste des Ai du vecteur qui ne sont pas probands. Nous étudierons la distribution, l’espérance et la variance de la variable d’intérêt A2

dans le vecteur puisque encore une fois ces résultats sont les mêmes peu importe quel élément du vecteur A qui n’est pas proband (i.e. i ∈ {2,3, . . . ,∞}) et la covariance entre A1 et A2 et

entre A2 et A3. Encore une fois, nous fixons la valeur de B1 à la valeur constante b1 pour

simplifier les premiers résultats théoriques. Nous commençons avec la fonction de répartition de A2 lorsqu’il y a 100 × p0% des familles pour lesquelles A1 < b1 et 100 × p1% des familles

pour lesquelles A1 ≥ b1. P (A2< a2|H) = 1 p0Φ(b1) + p1[1 − Φ(b1)]  p0 Z a2 −∞ Z b1 −∞ φ2(s,t)dsdt + p1 Z a2 −∞ Z ∞ b1 φ2(s,t)dsdt 

En dérivant cette fonction de répartition par rapport à a2, nous obtenons la fonction de densité suivante : fA2(a2|H) = 1 p0Φ(b1) + p1[1 − Φ(b1)]  p0 Z b1 −∞ φ2(s,a2)ds + p1 Z ∞ b1 φ2(s,a2)ds 

À partir de cette fonction de densité nous pouvons obtenir l’espérance et la variance de A2 lorsque la probabilié de retenir un vecteur dans l’échantillon est de 100 × p0% lorsque A1 < b1

et de 100 × p1% lorsque A1 ≥ b1 : E(A2|H,B1 = b1) = Z ∞ −∞ tfA2(t|H,B1 = b1)dt V ar(A2|H,B1= b1) = Z ∞ −∞ t2fA2(t|H,B1 = b1)dt  − Z ∞ −∞ tfA2(t|H,B1= b1)dt 2

Avec l’aide de la fonction de la densité bivariée de A1 et A2, nous pouvons obtenir la covariance de ces deux variables.

(28)

Z ∞ −∞ Z ∞ −∞ stfA1,A2(s,t|H,B1 = b1)dt  − Z ∞ −∞ sfA1(s|H,B1 = b1)ds  Z ∞ −∞ tfA2(t)dt 

Nous utilisons ensuite la densité bivariée de A2 et A3 pour obtenir la covariance entre ces deux

variables. Cov(A2, A3|H,B1= b1) = Z ∞ −∞ Z ∞ −∞

tufA2,A3(t,u|H,B1 = b1)dudt

 − Z ∞ −∞ tfA2(t|H,B1 = b1)dt  Z ∞ −∞ ufA3(u|H,B1 = b1)du 

Ensuite, nous laissons B1 varier de façon aléatoire et nous ajustons les formules précédentes

d’espérance, de variance et de covariance. Pour l’espérance nous obtenons la formule suivante :

E(A2) = EB1

Z ∞

−∞

tfA2(t|H,B1 = b1)dt



Avec la loi de la variance totale nous obtenons la variance suivante :

V ar(A2) = EB1 ( Z ∞ −∞ t2fA2(t|H,B1= b1)dt  − Z ∞ −∞ tfA2(t|H,B1 = b1)dt 2) + V arB1 Z ∞ −∞ tfA2(t|H,B1 = b1)dt 

Finalement, avec la loi de la covariance totale nous obtenons les covariances suivantes :

Cov(A1, A2) = EB1 Z ∞ −∞ Z ∞ −∞ stfA1,A2(s,t|H,B1 = b1)dtds  − Z ∞ −∞ sfA1(s|H,B1 = b1)ds  Z ∞ −∞ tfA2(t|H,B1= b1)dt  + CovB1 Z ∞ −∞ sfA1(s|H,B1= b1)ds  , Z ∞ −∞ tfA2(t|H,B1= b1)dt  Cov(A2, A3) = EB1{ Z ∞ −∞ Z ∞ −∞

tufA2,A3(t,u|H,B1= b1)dudt

 −

(29)

Z ∞ −∞ tfA2(t|H,B1 = b1)dt  Z ∞ −∞ ufA3(u|H,B1 = b1)du  }+ CovB1 Z ∞ −∞ tfA2(t|H,B1= b1)dt  , Z ∞ −∞ ufA2(u|H,B1 = b1)du 

1.2

Conclusion

Maintenant que nous avons toutes les formules théoriques nécessaires, nous explorons, dans le prochain chapitre, les méthodes de simulation utilisées pour générer les données. Les résultats empiriques seront ensuite comparés aux résultats théoriques du présent chapitre.

(30)

Chapitre 2

Données multivariées avec un biais de

sélection : Simulations

2.1

Simulations

Les données utilisées pour les vérifications avec les résultats théoriques sont obtenues par simulation avec le logiciel R. Nous avons utilisé plusieurs librairies et fonctions afin de générer les données pour chacun des cas et cette section est dédiée à la présentation des méthodes utilisées afin de générer les données.

Pour les simulations nous utilisons plusieurs fonctions provenant de librairies R. La librairie stats (Team,2018) est utilisée pour générer les Ai et les Bi. Cette librairie contient des

fonc-tions permettant de générer des données selon des lois gaussiennes univariées, des foncfonc-tions permettant obtenir l’espérance et la variance de distributions gaussiennes, ainsi que des fonc-tions de densité et de répartition pour ces distribufonc-tions. La librairie truncnorm (Mersmann et al., 2018) est également utilisée pour générer des Ai. La librairie truncnorm contient des fonctions pour la densité, la fonction de répartition, l’espérance, la variance et la simulation de données suivant des distributions gaussiennes tronquées. Nous avons également utilisé la librairie mvtnorm (Genz and Bretz, 2009; Genz et al.,2018) qui contient des fonctions pour les distributions gaussiennes multivariées. Cette librairie nous a également servie à générer les Ai. Nous utilisons également les fonctions de cette librairie pour le calcul d’espérances,

de variances et covariances théoriques. Finalement, la librairie tmvtnorm (Wilhelm and G,

2015) est utilisée afin de générer des données selon des distributions gaussiennes multivariées tronquées pour les variables d’intérêt Ai. Cette librairie fournie également des outils pour les densités, les fonctions de répartition, les espérances, les variances et les covariances que nous utilisons pour les résulats théoriques. Plusieurs méthodes pour générer les Ai ont donc été

utilisées et nous présenterons les méthodes permettant d’obtenir les meilleurs résultats pour la simulation des données biaisées par le mode de sélection par proband en comparant nos

(31)

résultats empiriques aux résultats théoriques.

L’espérance de la variable de censure est notée µB. Nous testons différentes valeurs pour cette espérance au cours des simulations afin de vérifier les résulats des simulations dans différentes conditions, les valeurs d’espérances vérifiées sont µB ∈ {−3, −2, ..., 2, 3} et ces valeurs sont

utilisées pour tous les cas. La variance de la variable de censure est notée σB2. Nous avons également testé différentes valeurs pour cette variance au cours des simulations, nous vérifions les valeurs suivantes de variance σB2 ∈ {1, 1.44}. Ces valeurs sont testées en combinaison avec toutes les valeurs d’espérance de la variable de censure.

Nous avons considéré les cas avec 1 proband par vecteur de variables d’intérêt, avec 2 probands par vecteur de variables d’intérêt et le cas où il y a présence de censure des probands. Il est à noter que les Bi sont seulement générés pour les probands lors des simulations. Nous ne

vérifions donc pas les taux de censure pour les cas qui ne sont pas probands. Rappelons que cette section vise à vérifier l’effet de la sélection par proband sur la distribution de la variable d’intérêt des cas retenus dans l’échantillon final. Pour chaque simulation, 10 000 vecteurs A sont générés afin de calculer les moyennes, les variances et les covariances entre les variables d’intérêt.

2.1.1 Cas avec 1 proband

Dans cette situation nous avons 1 seul Ai servant de proband pour la sélection des vecteurs

A. Comme mentionné auparavant dans la section 1.1.1, les Ai sont tous distribués selon une

loi gaussienne d’espérance 0 et de variance égale à 1. Nous générons 10 000 vecteurs A et ces vecteurs sont tous indépendants les uns des autres. Tous les Ai qui sont probands ont

la condition Ai < Bi pour leur variable d’intérêt et, pour simplifier la compréhension, nous

supposons que le proband est toujours le cas où i = 1 de chacun des vecteurs A. Les Bi sont tous indépendants les uns des autres et ils sont également indépendants de tous les Ai.

Nous générons 3 Ai par vecteur A afin de réduire les temps de simulation le plus possible et

d’obtenir toutes les statistiques nécessaires à la comparaison avec les résultats théoriques. Nous avons utilisé différentes méthodes pour générer les données de simulations. Cependant, dans tous les cas, les B1 sont générés en premier pour ensuite générer les Ai selon les seuils

obtenus. Les méthodes diffèrent par la façon de générer les Ai.

Pour la première méthode de simulation, nous générons un vecteur de 10 000 seuils indépen-dants B1 selon une loi gaussienne en premier lieu. La fonction rnorm de la librairie stats est utilisée pour générer ces seuils. Ensuite, nous générons les Ai pour chacun des 10 000 vecteurs

A selon une loi gaussienne d’espérance égale à 0 et de variance égale à 1 tronquée pour le premier élément du vecteur (A1) au seuil B1 qui lui correspond. Nous obtenons ainsi 10 000

(32)

covariances afin de les comparer aux valeurs théoriques. Comme mentionné auparavant, cette procédure est répétée pour différentes valeurs d’espérance et de variance pour la loi gaussienne qui génère les Bi.

Les trois Ai pour chaque vecteur sont générés avec la fonction rnorm de la librairie stats,

qui permet de générer des données selon des lois gaussiennes. Le A1 est généré à répétition dans une boucle "while", jusqu’à ce que l’on obtienne une valeur inférieure au B1 associée

à ce vecteur. Ensuite, puisque les Ai sont corrélés, le A2 est généré en tenant compte de la

valeur obtenue pour le A1et la même chose est répétée pour générer la valeur du A3 en tenant compte de la valeur obtenue pour le A1 et le A2.

Pour la deuxième méthode de simulation des données, nous utilisons la fonction rtruncnorm de la librairie truncnorm. Cette fonction permet de générer des valeurs aléatoires d’une loi gaussienne tronquée. Elle est donc utilisée pour générer les valeurs des A1 selon les valeurs des seuils B1. Ensuite, les valeurs des A2 sont générées à l’aide de la fonction rnorm, selon

les valeurs obtenues pour les A1 et finalement les A3 sont également générés en utilisant la

fonction rnorm selon les valeurs obtenues pour les variables A1 et A2.

Nous avons également testé une troisième méthode pour générer les Ai. La fonction rtmvnorm de la librairie tmvtnorm permet de générer des données selon une loi gaussienne multivariée tronquée. À l’aide de cette fonction nous pouvons donc générer les valeurs de A1, de A2 et de

A3 tous ensemble.

Les formules théoriques sont ensuite évaluées numériquement dans le logiciel R afin d’obtenir les différentes valeurs théoriques. Ces évaluations sont faites pour différentes valeurs d’espé-rance et de variance pour la loi gaussienne des Bi. La fonction Integrate de la librairie stats du logiciel R est utilisée pour évaluer numériquement les intégrales. Nous utilisons également la fonction mtmvnorm de la librairie mvtnorm afin de coder les formules à évaluer numérique-ment. Cette fonction génère des nombres aléatoires selon la loi de densité d’une loi gaussienne tronquée. Avec les valeurs théoriques obtenues, nous pouvons ensuite les comparer avec les résultats de nos simulations.

2.1.2 Cas avec 2 probands

Encore une fois, plusieurs méthodes ont été utilisées pour générer les données par simulations pour ce cas. Dans tous les cas, les seuils Bi sont générés en premier pour ensuite générer les Ai.

Pour la première méthode, nous générons les A1 en premier pour ensuite générer les A2 selon la valeur obtenue pour les A1, ensuite générer les A3 selon les deux premières valeurs pour

(33)

généré avec la fonction rnorm de la librairie stats. De plus, A1 et A2 sont générés avec l’aide d’une boucle "while" afin d’obtenir des valeurs inférieures aux seuils B1 et B2 pour chaque vecteur A.

La deuxième méthode, est très similaire à la première excepté pour la fonction utilisée pour générer les valeurs des variables A1 et A2. La fonction rtruncnorm de la librairie truncnorm, qui permet de générer des données à partir d’une loi gaussienne tronquée, remplace la fonction rnorm pour générer les valeurs des variables A1 et A2.

Nous avons ensuite testé une méthode où les quatre Ai, pour chacun des vecteurs, étaient

générés en même temps, selon une loi gaussienne multivariée. Pour cette méthode, nous avons utilisé la fonction rmvnorm pour générer les Ai. Une boucle "while" était utilisé pour générer

les Ai jusqu’à ce que l’on obtienne des valeurs pour ces variables qui étaient inférieures à leurs

valeurs de seuils Bi respectifs.

Finalement, pour la dernière méthode testée, nous avons remplacé la loi gaussienne multiva-riée par une loi gaussienne multivamultiva-riée tronquée avec l’aide de la fonction rtmvnorm de la librairie tmvtnorm. Avec l’aide de cette fonction nous pouvons spécifier les seuils Bi pour les

simulations des valeurs des variables Ai et ainsi directement générer des valeurs en respectant les conditions.

Afin de valider les simulations, nous évaluons les formules théoriques numériquement à l’aide de la fonction adaptIntegrate qui fait partie de la librairie cubature (Narasimhan et al.,2018). Cette fonction permet d’évaluer numériquement des intégrales et elle est adaptée pour les inté-grales multiples. Nous utilisons également la fonction mtmvnorm de la librairie tmvtnorm qui permet d’obtenir les moments de lois gaussiennes multivariées tronquées et la fonction dnorm de la librairie stats qui donne la fonction de densité d’une loi gaussienne. Ces évaluations sont faites pour différentes espérances et différentes variances pour les variables Bi. Les résultats

obtenus sont ensuite utilisés pour valider les résultats des simulations.

2.1.3 Cas incluant des observations avec des probands censurés

Les résultats théoriques obtenus sont comparés au résultats des simulations. Pour les simu-lations nous générons les 10 000 B1 en premier lieu pour ensuite générer les Ai. Les Ai sont générés vecteur par vecteur dans une boucle "while" à l’aide de la fonction rmvnorm. Nous générons également une variable aléatoire p selon une loi uniforme de valeur minimale 0 et maximale 1. Si le A1 est supérieur au seuil B1 nous conservons le trio de Ai seulement si le p est inférieur à la probabilité p1 de retenir une observation pour laquelle A1 ≥ B1. Si le A1 est

inférieur à B1 le trio de valeurs de Ai est conservé si le p généré est inférieur à la probabilité de retenue p0 des observations pour lesquelles A1 < B1.

(34)

Les formules finales d’espérance, de variance et de covariance sont également évaluées de façon numérique à l’aide des fonctions Integrate et adaptIntegrate. Nous utilisons également les fonctions dnorm et pnorm pour les distributions.

2.2

Résultats

2.2.1 Cas avec 1 proband

La première méthode de simulation est très lente en temps de calculs. La boucle "while" est la cause de ces lenteurs puisque certains seuil B1 peuvent prendre des valeurs très faibles par

rapport à l’espérance de A1. Les probabilités d’obtenir une valeur de A1 inférieure à ce seuil est alors très faible et plusieurs itérations de la boucle sont alors nécessaires pour obtenir une valeur adéquate pour cette famille. On remarque également que les variances et la covariance ne suivent pas les valeurs théoriques pour des valeurs d’espérance de Bi petites. Ces écarts se creusent lorsque la variance des Bi est également plus élevée. Cela s’explique par la diffculté

de générer des A1 inférieurs au seuil B1 lorsque ceux-ci sont plus fréquement éloignés de

l’espérance des Ai. Nous obtenons alors peu de valeurs pour les A1 qui sont très éloignées du seuil B1 ce qui réduit la variance mesurée sur les données générées.

Pour la deuxième méthode de simulation, les changements permettent de réduire le temps d’exécution grandement puisque les valeurs des A1 sont directement générées à partir des

valeurs inférieures à B1 dans la distribution gaussienne. Les résultats sont également similaires aux résultats obtenus avec les formules théoriques. Cette méthode est donc celle qui a été retenue et nous présentons les résultats de ces simulations dans les figures 2.1, 2.2 et 2.3. Pour la troisième méthode de simulation, nous avons remarqué que les variances et les co-variances calculées, pour les simulations, étaient inférieures aux valeurs théoriques lorsque l’espérance des B1 est élevée. Cette méthode de simulation n’a donc pas été retenue.

(35)

−3 −2 −1 0 −2 0 2 Esperance de B (variance de 1) Esper ance de A1 Source simulation numerique −3 −2 −1 0 −2 0 2 Esperance de B (variance de 1.44) Esper ance de A1 Source simulation numerique 0.80 0.85 0.90 0.95 −2 0 2 Esperance de B (variance de 1) V ar iance de A1 Source simulation numerique 0.9 1.0 1.1 1.2 1.3 −2 0 2 Esperance de B (variance de 1.44) V ar iance de A1 Source simulation numerique

Figure 2.1 – Espérance et variance de la variable A1 selon l’espérance du seuil B1 et à

(36)

−1.5 −1.0 −0.5 0.0 −2 0 2 Esperance de B (variance de 1) Esper ance de A2 Source simulation numerique −1.5 −1.0 −0.5 0.0 −2 0 2 Esperance de B (variance de 1.44) Esper ance de A2 Source simulation numerique 0.92 0.96 1.00 −2 0 2 Esperance de B (variance de 1) V ar iance de A2 Source simulation numerique 0.96 0.99 1.02 1.05 −2 0 2 Esperance de B (variance de 1.44) V ar iance de A2 Source simulation numerique

Figure 2.2 – Espérance et variance de la variable A2 selon l’espérance du seuil B1 et à

différentes valeurs de variance pour B1 avec des cas à 1 proband.

Pour chacun des graphiques de la Figure 2.1 la valeur du paramètre de A1 estimée par

simula-tion et par évaluasimula-tion théorique est sur l’axe y et la valeur de l’espérance de B1 utilisée est sur

l’axe x. Dans le graphique en haut à gauche de la Figure 1.1 on peut voir que la moyenne des simulations et l’espérance des résultats théoriques pour la variable A1, lorsque la variance de

B1 est égale à 1, sont presque exactement les mêmes et ce pour toutes les valeurs d’espérance

(37)

simulations n’est presque pas visible. Les même résultats sont observés, dans la figure en bas à gauche de la Figure 1.1, la moyenne des simulations et les espérances théoriques de A1, lorsque la variance de B1 est de 1.44, sont presque exactement les même et ce peu importe

la valeur de l’espérance de B1 testée. Pour les variances de A1 nous remarquons qu’elles sont également similaires si l’on compare les résulats des simulations et les résultats théoriques. Ce qui est le cas lorsque la variance de B1 est de 1 (en haut à droite) et lorsqu’elle vaut 1.44 (en

bas à droite) et pour toutes les valeurs d’espérance de B1. La même chose est observée dans la Figure 2.2 pour la valeur du paramètre de A2 estimé.

(38)

0.375 0.400 0.425 0.450 0.475 0.500 −2 0 2 Esperance de B (variance de 1) Co v ar iance de A1 et A2 Source simulation numerique 0.45 0.50 0.55 0.60 0.65 −2 0 2 Esperance de B (variance de 1.44) Co v ar iance de A1 et A2 Source simulation numerique 0.44 0.46 0.48 0.50 −2 0 2 Esperance de B (variance de 1) Co v ar iance de A2 et A3 Source simulation numerique 0.475 0.500 0.525 0.550 0.575 −2 0 2 Esperance de B (variance de 1.44) Co v ar iance de A2 et A3 Source simulation numerique

Figure 2.3 – Covariance entre les variables A1 et A2 (gauche) et les variables A2 et A3

(droite) selon l’espérance du seuil B1 et à différentes valeurs de variance pour B1 avec des cas

à 1 proband.

Finalement pour la figure 2.3 nous voyons que la covariance entre A1 et A2 (à gauche) suit bien les résultats théorique et ce peu importe la valeur d’espérance et de variance pour le seuil B1. La covariance entre A2 et A3 (à droite) est également bien estimée par nos simulations.

(39)

2.2.2 Cas avec 2 probands

Pour la première méthode le temps d’exécution est très lent étant donné les deux boucles "while", surtout lorsque les deux seuils prennent des valeurs négatives à plusieurs écart-types de l’espérance des Ai qui est 0. De plus, les variances et les covariances obtenus par simulation étaient très différentes des valeurs théoriques. En effet, les valeurs obtenues pour les simulations étaient inférieures au valeurs théoriques et ce, pour presque toutes les valeurs d’espérance et de variance des variables Bi.

La deuxième méthode permet d’obtenir des temps d’exécution beaucoup plus rapides qu’avec la première méthode. En effet, une seule génération des valeurs de la variable A1 et A2 est

né-cessaire puisque la fonction rtruncnorm prend en entrée une valeur pour le seuil Bi. Cependant,

les biais au niveau des variances et des covariances étaient toujours présents.

La troisième méthode permet de corriger les erreurs pour les variances et les covariances qui étaient observées avec les deux méthodes précédentes. Cependant, la boucle "while" et la possibilité d’avoir des valeurs de seuils Bià plusieurs écarts-types de l’espérance des Ai font en sorte que les temps d’exécution de cette méthode de simulation étaient très longs par rapport à une méthode qui génère directement des valeurs selon les seuils.

La quatrième méthode corrige le problème de temps d’exécution des simulations puisqu’elle permet de retirer la boucle "while" et permet de directement générer des valeurs adéquates. Cependant, les variances et covariances ne suivent pas les résulats théoriques lorsque la valeur de l’espérance pour les variables Bi est élevée et ce, peu importe la valeur de la variance des

seuils.

Nous avons donc opté pour la troisième méthode de simulation avec la fonction rmvnorm. Bien que cette méthode soit très lente, elle permet de simuler les bonnes données selon le biais prévu. Les figures 2.4, 2.5, 2.6, 2.7 et 2.8 contiennent les résulats des comparaisons entre les simulations et les résultats théoriques pour cette méthode.

(40)

−3 −2 −1 0 −2 0 2 Esperance de B (variance de 1) Esper ance de A1 Source simulation numerique −3 −2 −1 0 −2 0 2 Esperance de B (variance de 1.44) Esper ance de A1 Source simulation numerique 0.75 0.80 0.85 0.90 0.95 −2 0 2 Esperance de B (variance de 1) V ar iance de A1 Source simulation numerique 0.9 1.0 1.1 −2 0 2 Esperance de B (variance de 1.44) V ar iance de A1 Source simulation numerique

Figure 2.4 – Espérance et variance de la variable A1 selon l’espérance des seuil B1 et B2 et

(41)

−3 −2 −1 0 −2 0 2 Esperance de B (variance de 1) Esper ance de A2 Source simulation numerique −3 −2 −1 0 −2 0 2 Esperance de B (variance de 1.44) Esper ance de A2 Source simulation numerique 0.75 0.80 0.85 0.90 −2 0 2 Esperance de B (variance de 1) V ar iance de A2 Source simulation numerique 0.9 1.0 1.1 −2 0 2 Esperance de B (variance de 1.44) V ar iance de A2 Source simulation numerique

Figure 2.5 – Espérance et variance de la variable A2 selon l’espérance des seuil B1 et B2 et

(42)

−2.0 −1.5 −1.0 −0.5 0.0 −2 0 2 Esperance de B (variance de 1) Esper ance de A3 Source simulation numerique −2.0 −1.5 −1.0 −0.5 0.0 −2 0 2 Esperance de B (variance de 1.44) Esper ance de A3 Source simulation numerique 0.90 0.95 −2 0 2 Esperance de B (variance de 1) V ar iance de A3 Source simulation numerique 0.92 0.94 0.96 0.98 −2 0 2 Esperance de B (variance de 1.44) V ar iance de A3 Source simulation numerique

Figure 2.6 – Espérance et variance de la variable A3 selon l’espérance des seuil B1 et B2 et

(43)

0.2 0.3 0.4 −2 0 2 Esperance de B (variance de 1.44) Co v ar iance de A1 et A2 Source simulation numerique 0.2 0.3 0.4 −2 0 2 Esperance de B (variance de 1.44) Co v ar iance de A1 et A2 Source simulation numerique 0.30 0.35 0.40 0.45 −2 0 2 Esperance de B (variance de 1.44) Co v ar iance de A1 et A3 Source simulation numerique 0.36 0.39 0.42 0.45 0.48 −2 0 2 Esperance de B (variance de 1.44) Co v ar iance de A1 et A3 Source simulation numerique

Figure 2.7 – Covariance des variables A1et A2 (gauche) et A1 et A3(droite) selon l’espérance

(44)

0.30 0.35 0.40 0.45 −2 0 2 Esperance de B (variance de 1.44) Co v ar iance de A2 et A3 Source simulation numerique 0.39 0.42 0.45 0.48 −2 0 2 Esperance de B (variance de 1.44) Co v ar iance de A2 et A3 Source simulation numerique 0.40 0.45 −2 0 2 Esperance de B (variance de 1.44) Co v ar iance de A3 et A4 Source simulation numerique 0.44 0.46 0.48 −2 0 2 Esperance de B (variance de 1.44) Co v ar iance de A3 et A4 Source simulation numerique

Figure 2.8 – Covariance des variables A2et A3 (gauche) et A3 et A4(droite) selon l’espérance

des seuil B1 et B2 et à différentes valeurs de variance pour B1 et B2 avec le cas à 2 probands.

Nous remarquons un léger biais pour les variances et les covariances pour les simulations lorsque les valeurs d’espérances pour les seuils sont très faibles en comparaison à l’espérance des valeurs d’intérêt. Cette différence est encore plus marquée lorsque la variance des seuils est augmentée. La variance et la covariance des simulations sont inférieures aux valeurs théoriques. Cela s’explique par la difficulté d’obtenir des valeurs qui sont inférieures aux seuils pour ces cas extrêmes. Nous conservons tout de même cette méthode de simulation pour tester la

(45)

performance du test d’association puisque nous n’irons pas jusqu’à des cas aussi extrêmes de censure.

2.2.3 Cas incluant des observations avec des probands censurés

Contrairement aux simulations où nous conservions seulement les observations où Ai< Bi, les

temps d’exécution des simulations sont grandement réduits dans le cas incluant des vecteurs dont les probands sont censurés. Cela s’explique par l’inclusion de cas où Ai ≥ Bi. Bien que la probabilité de sélection de tels cas soit faible, elle permet d’obtenir plus rapidement des observations pour les cas où les valeurs des Bi se retrouvent à plusieurs écart-types de

(46)

−0.6 −0.4 −0.2 0.0 −2 0 2 Esperance de B (variance de 1) Esper ance de A1 Source simulation numerique −0.6 −0.5 −0.4 −0.3 −0.2 −0.1 −2 0 2 Esperance de B (variance de 1.44) Esper ance de A1 Source simulation numerique 0.8 0.9 1.0 1.1 1.2 1.3 −2 0 2 Esperance de B (variance de 1) V ar iance de A1 Source simulation numerique 0.9 1.0 1.1 1.2 1.3 −2 0 2 Esperance de B (variance de 1.44) V ar iance de A1 Source simulation numerique

Figure 2.9 – Espérance et variance de la variable A1 selon l’espérance du seuil B1 et à

différentes valeurs de variance pour B1 avec le cas à 1 proband en présence de censure des

probands et où on retient 10% des cas pour lesquels le proband est censuré et 90% des cas pour lesquels le proband n’est pas censuré.

(47)

−0.3 −0.2 −0.1 0.0 −2 0 2 Esperance de B (variance de 1) Esper ance de A2 Source simulation numerique −0.2 −0.1 −2 0 2 Esperance de B (variance de 1.44) Esper ance de A2 Source simulation numerique 0.95 1.00 1.05 1.10 −2 0 2 Esperance de B (variance de 1) V ar iance de A2 Source simulation numerique 1.00 1.05 1.10 −2 0 2 Esperance de B (variance de 1.44) V ar iance de A2 Source simulation numerique

Figure 2.10 – Espérance et variance de la variable A2 selon l’espérance du seuil B1 et à

différentes valeurs de variance pour B1 avec le cas à 1 proband en présence de censure des

probands et où on retient 10% des cas pour lesquels le proband est censuré et 90% des cas pour lesquels le proband n’est pas censuré.

(48)

0.4 0.5 0.6 0.7 −2 0 2 Esperance de B (variance de 1) Co v ar iance de A1 et A2 Source simulation numerique 0.5 0.6 0.7 −2 0 2 Esperance de B (variance de 1.44) Co v ar iance de A1 et A2 Source simulation numerique

Figure 2.11 – Covariance des variables A1et A2(gauche) et A2et A3(droite) selon l’espérance

du seuil B1 et à différentes valeurs de variance pour B1 avec le cas à 1 proband en présence

de censure des probands et où on retient 10% des cas pour lesquels le proband est censuré et 90% des cas pour lesquels le proband n’est pas censuré.

Nous pouvons voir, dans les figures 2.9, 2.10 et 2.11 que les moyennes, les variances et les covariances, obtenues avec les simulations, suivent les résultats théoriques. Nous pouvons donc confirmer que le biais de sélection, que la sélection des vecteurs A par proband occasionne, a été générée adéquatement pour le cas avec un seul proband par vecteur en présence de censure des probands.

Références

Documents relatifs

Figure – Les objectifs multiples de la gestion des écosystèmes dans un contexte de changement climatique : (1) faciliter l’adaptation écologique, (2) contribuer à

Il est remarquable de constater que les cultivars les plus pro- ductifs en conditions irriguées ne sont pas forcément ceux qui subissent la plus forte chute de production de bio-

Le principe général d'une architecture de compression- décompression horizontale pour un circuit avec N chaînes de scan (Fig.1) est d'envoyer les tranches de N bits avec seulement

Résumé But : j’ai réalisé cette revue de littérature dans le but de comprendre quels sont les facteurs compromettant le bien-être quotidien des familles d’un enfant atteint

façade (des ailes pour l’oiseau, la puissance physique et la vélocité pour le fauve, etc.). Mais l’altérité de l’animal sert, réciproquement, à notre propre

Nous obtenons une repr´ esentation asymptotique de notre statistique de test se rap- prochant de celle obtenue sous des hypothses plus restrictives par Lopez et Patilea (2009)

Nous pouvons, dès lors, vous proposer un test génétique permettant de déterminer si vous avez hérité ou non de cette mutation.. Comme vous êtes actuellement en bonne santé,

De nombreux avantages découlaient du fait de soigner à l’hôpital nos propres patients et ceux de nos collègues de la collectivité, tels que l’amélioration de la continuité des