Critère de sélection de variables pour les modèles de régression logistique conditionnelle mixte lorsque la structure des effets aléatoires est inconnue

(1)

Critère de sélection de variables pour les modèles de

régression logistique conditionnelle mixte lorsque la

structure des effets aléatoires est inconnue.

Mémoire

Ouassima Benouari

Maîtrise en statistique - avec mémoire

Maître ès sciences (M. Sc.)

(2)

Critère de sélection de variables pour les modèles de

régression logistique conditionnelle mixte lorsque la

structure des effets aléatoires est inconnue

Mémoire

Ouassima Benouari

Sous la direction de: Thierry Duchesne

(3)

Résumé

Nous évaluons la perfomance du critère récemment proposé meanAIC comme critère de sé-lection de variables pour les modèles de régression logistique conditionnelle mixte. Il s’agit d’un critère basé sur l’information d’Akaike, calculable lorsque le modèle est ajusté à l’aide d’une méthode d’estimation en deux étapes. En outre, le calcul de meanAIC ne nécessite pas la spécification de la structure des effets aléatoires ; il est donc d’une grande utilité comme premier filtre pour les variables dans une première analyse où la structure des effets aléatoires est typiquement inconnue. Ce travail a été motivé par les applications en écologie, où la sé-lection de variables est traditionnellement basée sur les critères d’information plutôt que sur les méthodes de régularisation. Ces études utilisent les données télémétriques de déplacement animal collectées selon un plan d’échantillonnage cas-témoins apparié et analysées à l’aide d’un modèle de régression logistique conditionnelle mixte. Nous effectuons une étude de simulation pour évaluer la capacité de meanAIC à correctement identifier les covariables potentiellement importantes dans le modèle et nous illustrons son utilisation à l’aide de données de sélection d’habitat collectées sur des caribous.

(4)

Abstract

We assess the perfomance of the recently proposed criterion meanAIC as a variable selection criterion for mixed conditional logistic regression models. It is a criterion based on Akaike’s information, computable when the model is fitted with a two-step estimation method. In addition, the calculation of meanAIC does not require the specification of the random effects structure; it is thus of great use as a first covariates filter in the early stage of the analysis when the random effects structure is typically unknown. This work is motivated by applications in ecology where the model selection is traditionally based on information criteria rather than on regularization. These studies use animal movement telemetric data collected using a matched case-control sampling design that are analyzed with a mixed conditional logistic regression model. We conduct a simulation study to assess the ability of meanAIC to correctly identify potentially important covariates and illustrate its use by analyzing habitat selection data collected on caribou.

(5)

Table des matières

Résumé ii

Abstract iii

Table des matières iv

Liste des tableaux vi

Liste des figures ix

Remerciements x

Introduction 1

1 Régression logistique conditionnelle mixte 4

1.1 Les données des études de sélection d’habitat . . . 4

1.2 Régression logistique conditionnelle . . . 6

1.2.1 Notations . . . 7

1.2.2 Estimation des paramètres . . . 7

1.3 Effets aléatoires dans la régression logistique conditionnelle . . . 10

1.3.1 Données et modèle . . . 11

1.3.2 Estimation et inférence . . . 12

1.4 Conclusion du chapitre . . . 17

2 Étude de simulation : meanAIC comme critère de sélection de variables pour les modèles de régression logistique conditionnelle mixte 19 2.1 meanAIC pour les modèles linéaires généralisés mixtes . . . 20

2.1.1 Calcul de meanAIC . . . 20

2.1.2 Calcul de meanAIC pour les modèles de régression logistique condi-tionnelle mixte . . . 21

2.2 Étude de simulation . . . 22

2.2.1 Simulation de données groupées et stratifiées . . . 22

2.2.2 Devis de simulation . . . 23

2.2.3 Scénarios de simulation . . . 27

2.2.4 Plan de simulation . . . 29

2.3 Résultats . . . 29

2.4 Conclusion du chapitre . . . 33 3 Application : données de sélection d’habitat chez les caribous 35

(6)

3.1 Les données . . . 35 3.2 Sélection de variables à l’aide de meanAIC et mAIC . . . 37 3.3 Conclusion du chapitre . . . 40

Conclusion 41

A Compléments des résultats de l’étude de simulation présentée dans le

chapitre 2 43

A.1 Plan de simulation 1 : Modèle de régression logistique conditionnelle mixte

ordinaire . . . 43 A.2 Plan de simulation 2 : Modèle de régression logistique conditionnelle mixte

avec autocorrélation temporelle . . . 44 A.3 Plan de simulation 3 : Modèle de régression logistique conditionnelle mixte

avec chaîne de Markov cachée . . . 50 B Données de sélection d’habitat chez le caribou forestier 56

(7)

Liste des tableaux

2.1 Matrice de données simulées dans la première étape de l’algorithme de

simula-tion de données groupées et stratifiées. . . 24 2.2 Scénarios de simulation pour le calcul de meanAIC et mAIC sur des données

générées à partir d’un modèle de régression logistique conditionnelle ordinaire. . 29 2.3 Plan de simulation 1 - scénario 1 : Proportion des 200 simulations où les critères

meanAIC et mAIC ont choisi le bon modèle. La taille des groupes est Sc= 80

∀c et βf ixe_{∈ {0.2, 0.4}}_{. . . .} ₃₁

2.4 Plan de simulation 1 - scénario 1 : Proportion des 200 simulations où les critères meanAIC et mAIC ont choisi le bon modèle. La taille des groupes est Sc=∈

{80, 320}, βf ixe_{= 0.2}_{. . . .} ₃₁

2.5 Plan de simulation 1 - scénario 2 : Proportion des 200 simulations où les critères meanAIC et mAIC ont choisi le bon modèle. La taille des groupes est Sc= 80

∀c et βf ixe_{∈ {0.2, 0.4}}_{. . . .} ₃₂

2.7 Plan de simulation 1 : Proportion des 200 simulations des scénarios 1, 2 et 3 où le critère mAIC a choisi le bon modèle. La taille des groupes est Sc_{= 80 ∀c}_et

βf ixe= 0.2. . . 32 2.6 Plan de simulation 1 - scénario 2 : Proportion des 200 simulations où les critères

meanAICet mAIC ont choisi le vrai modèle. La taille des groupes est Sc_{= 320}

∀c et βf ixe_{= 0.2}_{. . . .} ₃₃

3.1 Tableau de codification des variables . . . 37 3.2 Modèles choisis par meanAIC. . . 39 3.3 Résumé des modèles choisis par meanAIC ajustés à l’aide de Ts.estim du

pa-ckage TwoStepCLogit . . . 39 3.4 Essai 1 : modèles choisis par mAIC pour les différentes structures d’effets

aléa-toires. . . 40 A.1 Plan de simulation 1 : Proportion des 200 simulations des scénarios 1, 2, et 3

où le critère mAIC a choisi le bon modèle. la taille des groupes est Sc_{= 80 ∀c}_,

βf ixe= 0.4. . . 43 A.2 Plan de simulation 1 : Proportion des 200 simulations des scénarios 1, 2 et 3 où

le critère mAIC a choisi le bon modèle. la taille des groupes est Sc _{= 80 ∀c}_,

βf ixe= 0.4. . . 44 A.3 Scénarios de simulation pour le calcul de meanAIC et mAIC sur des

don-nées générées à partir d’un modèle de régression logistique conditionnelle avec

(8)

A.4 Plan de simulation 2 - scénario 1 : Proportion des 200 simulations où les critères meanAIC et mAIC ont choisi le bon modèle. la taille des groupes est Sc= 80

∀c, ρ = 0.5 et βf ixe_{∈ {0.2, 0.4}}_{. . . .} ₄₅

A.5 Plan de simulation 2 - scénario 1 : Proportion des 200 simulations où les critères meanAIC a choisi le bon modèle. la taille des groupes est Sc = 320 ∀c, ρ ∈

{0.15, 0.5}et βf ixe_{= 0.2}_{. . . .} ₄₅

A.6 Plan de simulation 2 - scénario 2 : Proportion des 200 simulations où les critères meanAIC et mAIC ont choisi le bon modèle. la taille des groupes est Sc =

80∀c, ρ = 0.15 et βf ixe ∈ {0.2, 0.4}. . . 46 A.7 Plan de simulation 2 - scénario 2 : Proportion des 200 simulations où les critères

meanAIC et mAIC ont choisi le bon modèle. la taille des groupes est Sc =

80∀c, ρ = 0.5 et βf ixe∈ {0.2, 0.4}. . . 47 A.8 Plan de simulation 2 - scénario 2 : Proportion des 200 simulations où les critères

meanAIC et mAIC ont choisi le bon modèle. la taille des groupes est Sc =

320∀c, ρ ∈ {0.15, 0.5} et βf ixe= 0.2. . . 48 A.9 Plan de simulation 2 : Proportion des 200 simulations des scénarios 1, 2 et 3 où

le critère mAIC a choisi le bon modèle. la taille des groupes est Sc _{= 80 ∀c,}

ρ ∈ {0.15, 0.5} et βf ixe= 0.2. . . 49 A.10 Plan de simulation 2 : Proportion des 200 simulations des scénarios 1, 2 et 3 où

le critère mAIC a choisi le bon modèle. la taille des groupes est Sc _{= 80 ∀c,}

ρ ∈ {0.15, 0.5} et βf ixe= 0.4. . . 49 A.11 Scénarios de simulation pour le calcul de meanAIC et mAIC sur des données

générées à partir d’un modèle de régression logistique conditionnelle avec chaîne

de Markov cachée. . . 50 A.12 Plan de simulation 3 - scénario 1 : Proportion des 200 simulations où les critères

meanAIC et mAIC ont choisi le bon modèle. la taille des groupes est Sc_{= 80}

∀c, P ∈ {P1, P2}et βf ixe∈ {0.2, 0.4}. . . 50

A.13 Plan de simulation 3 - scénario 1 : Proportion des 200 simulations où les critères meanAIC a choisi le bon modèle. la taille des groupes est Sc _{= 320 ∀c}_{, P ∈}

{P1, P2}et βf ixe = 0.2. . . 51

A.14 Plan de simulation 3 - scénario 2 : Proportion des 200 simulations où les critères meanAIC et mAIC ont choisi le bon modèle. la taille des groupes est Sc ₌

80∀c, P = P1 et βf ixe∈ {0.2, 0.4}. . . 52

A.15 Plan de simulation 3 - scénario 2 : Proportion des 200 simulations où les critères meanAIC et mAIC ont choisi le bon modèle. la taille des groupes est Sc ₌

80∀c, P = P2 et βf ixe∈ {0.2, 0.4}. . . 53

A.16 Plan de simulation 3 - scénario 2 : Proportion des 200 simulations où les critères meanAIC et mAIC ont choisi le bon modèle. la taille des groupes est Sc= 320

∀c, P ∈ {P1, P2}et βf ixe= 0.2. . . 54

A.17 Plan de simulation 3 : Proportion des 200 simulations des scénarios 1, 2 et 3 où le critère mAIC a choisi le bon modèle. la taille des groupes est Sc _{= 80 ∀c}_,

P ∈ {P1, P2}et βf ixe= 0.2. . . 55

A.18 Plan de simulation 3 : Proportion des 200 simulations des scénarios 1, 2 et 3 où le critère mAIC a choisi le bon modèle. la taille des groupes est Sc _{= 80 ∀c}_,

P ∈ {P1, P2}et βf ixe= 0.4. . . 55

B.1 Essai 1 : Résumé des modèles choisis par mAIC ajustés à l’aide de mlogit du

(9)

B.2 Essai 1 : Résumé des modèles choisis par mAIC ajustés à l’aide de mlogit du

package mlogit, pour les trois structures d’effets aléatoires - Automne. . . 57 B.3 Essai 1 : Résumé des modèles choisis par mAIC ajustés à l’aide de mlogit du

package mlogit, pour les trois structures d’effets aléatoires - Hiver. . . 57 B.4 Essai 1 : Résumé des modèles choisis par mAIC ajustés à l’aide de mlogit du

package mlogit, pour les trois structures d’effets aléatoires - Mise-bas. . . 58 B.5 Essai 2 : modèles choisis par mAIC pour les différentes structure d’effets

aléa-toires. . . 58 B.6 Essai 2 : Résumé des modèles choisis par mAIC ajustés à l’aide de mlogit du

package mlogit, pour les trois structures d’effets aléatoires - Été. . . 59 B.7 Essai 2 : Résumé des modèles choisis par mAIC ajustés à l’aide de mlogit du

(10)

Liste des figures

1.1 Illustration des trois devis d’échantillonange de lieux non visités dans une étude

de sélection d’habitat. . . 6 3.1 La zone d’étude (50–52◦_{Nord, 68–71}◦_{Ouest) située dans la région de la}

(11)

Remerciements

Je tiens à exprimer mes remerciements les plus sincères à mon directeur de recherche, monsieur Thierry Duchesne, professeur au Département de mathématiques et statistique de l’Université Laval. Je le remercie pour sa disponibilité et son soutien pendant toutes les étapes de ma maîtrise.

Je remercie également toute personne ayant participé, de près ou de loin, à l’élaboration du programme d’échange entre l’Institut National de Statistique et d’Économie Appliquée de Rabat et le Département de mathématiques et de statistique de l’Université Laval. Je voudrais remercier en particulier tous les membres du département qui ont veillé à ce que cette expérience soit si enrichissante.

Merci à ma chère amie Chaïmae pour sa générosité, sa gentillesse, et son sérieux dans tous les travaux que nous avons effectué en binôme ! Merci à Hanaa, Chaymae, Majda et Imane pour tous les beaux moments que nous avons partagés à l’université.

En finissant, je voudrais bien sûr remercier mes parents et mes frères qui m’ont toujours soutenue et encouragée. Je ne saurais jamais vous remercier assez.

Mes derniers remerciements vont à Ilias, qui m’a été d’un grand soutien tout au long de mon parcours. Merci pour ta positivité et ton optimisme.

Veuillez trouver ici l’expression et le témoignage de ma gratitude ressentie. Que ce mémoire vous honore et vous témoigne mes reconnaissances.

(12)

Introduction

Les Modèles Linéaires Généralisés Mixtes, communément connus sous l’acronyme GLMM, sont largement utilisés dans divers domaines scientifiques. Ces modèles sont en effet d’une grande flexibilité et permettent la modélisation de plusieurs types de données, notamment les données groupées, longitudinales ou spatiales. De telles données sont au coeur de plusieurs études statistiques, particulièrement en écologie, en santé ou en sciences sociales. En marketing, par exemple, le comportement des consommateurs est étudié sur la base de données collectées sur des individus suivis dans le temps. En médecine, les études cliniques sont basées sur les données de suivi des patients. En écologie, les études de comportement animal utilisent des données collectées sur des animaux équipés de colliers GPS et localisés à plusieurs reprises pendant toute la période de l’étude.

Grâce à l’évolution de la technologie, il est aujourd’hui facile de mesurer plusieurs variables sur les sujets étudiés. Or, certaines de ces variables peuvent être redondantes ou non pertinentes et le fait de les inclure dans le modèle peut avoir des conséquences fâcheuses sur les inférences. En effet, en plus des problèmes de multicollinéarité et de sur-ajustement, on peut montrer que le fait de garder des variables inutiles dans le modèle peut mener à des variances des estimateurs des coefficients beaucoup plus grandes que celles obtenues à partir du vrai modèle. Ainsi, la sélection de variables en général, et pour les GLMMs en particulier, fait l’objet d’une attention particulière de la part des statisticiens chercheurs. La littérature fournit d’ailleurs une multitude de méthodes dédiées à cet effet, comme par exemple les méthodes algorithmiques telles que la sélection pas-à-pas ou encore les méthodes de régularisation telles que l’approche du LASSO (Yuan and Lin(2006)).

Dépendamment du domaine d’étude, certaines méthodes peuvent être préférées à d’autres. C’est le cas par exemple des applications en écologie, où la sélection de modèles est tradition-nellement basée sur les critères d’information plutôt que sur les méthodes de régularisation (Craiu and Duchesne (2018)). Parmi les critères d’information les plus populaires, on trouve le critère d’information d’Akaike, l’AIC. Ce critère a été principalement développé pour les modèles linéaires à effets fixes et est calculé à partir de la vraisemblance maximisée du modèle ajusté. Pour les GLMMs, l’utilisation de l’AIC nécessite de spécifier si l’intérêt est l’inférence marginale ou conditionnelle, puisque ces deux scénarios impliquent des traitements différents

(13)

(Vaida and Blanchard(2005)). En effet, pour les modèles à effets mixtes, l’intérêt est soit dans les paramètres de population (inférence marginale), soit dans les paramètres spécifiques aux différents groupes, avec leurs effets aléatoires associés (inférence conditionnelle). Dans le pre-mier cas, l’AIC marginal (noté mAIC), basé sur la vraisemblance marginale du modèle, est utilisé. Dans le deuxième cas, Vaida and Blanchard (2005) proposent cAIC, dit AIC condi-tionnel, qui est basé sur l’information d’Akaike conditionnelle calculée conditionnellement aux effets aléatoires. Toutefois, la vraisemblance marginale devient numériquement complexe à optimiser pour les GLMMs en présence de données groupées massives (Craiu and Duchesne

(2018)). Les critères d’information dont la valeur dépend de la vraisemblance marginale ne peuvent donc être obtenus dans ce cas.

Lorsque l’inférence par maximum de vraisemblance n’est pas praticable, les chercheurs ont parfois recours aux méthodes d’estimation en deux étapes (Korn and Whittemore (1979) ;

Stiratelli et al. (1984)). Ces méthodes consistent à ajuster des GLMs à effets fixes aux don-nées de chaque groupe séparément, puis de combiner les estimés de paramètres obtenus en un seul estimé global. Développer un critère d’information calculable dans ce cas constitue ainsi une problématique de recherche intéressante, notamment pour les études en écologie ou en sciences sociales, où la sélection de variables est principalement basée sur les critères d’information. Dans ce sens, Craiu and Duchesne (2018) ont réussi à développer un critère basé sur l’information d’Akaike, noté meanAIC, calculable pour les GLMMs ajustés à l’aide d’une méthode d’estimation en deux étapes. La valeur de meanAIC est en effet obtenue en moyennant les AICs des modèles à effets fixes ajustés aux données de chaque groupe dans la première étape du processus d’estimation. En outre, contrairement à mAIC et cAIC, le calcul de meanAIC ne nécessite pas la spécification de la structure des effets aléatoires. Il constitue ainsi un premier filtre pour les variables explicatives, utile dans les étapes préliminaires de l’analyse où nous n’avons habituellement pas beaucoup de connaissances sur la structure des effets aléatoires.

Le recours à l’estimation en deux étapes s’avère encore plus nécessaire dans les études de com-portement animal en biologie. Ces études analysent des données télémétriques de déplacement animal souvent collectées selon un plan d’échantillonnage cas-témoins apparié et analysées à l’aide d’un modèle de régression logistique conditionnelle mixte dont la vraisemblance est nu-mériquement encore plus complexe à évaluer que celle d’un GLMM ordinaire. Aussi, dans ces études, peu est a priori connu sur la structure des effets aléatoires, d’où l’intérêt d’un critère tel meanAIC.

L’utilisation de meanAIC pour les modèles de régression logistique conditionnelle mixte est effectivement envisageable. Les quantités nécessaires au calcul de meanAIC, soit les AICs spécifiques aux groupes, peuvent en effet être obtenues en ajustant des modèles de Cox strati-fiés aux données de chaque groupe séparemment. Ainsi, l’objectif principal de ce mémoire est d’étudier la performance de meanAIC dans le cadre de la régression logistique conditionnelle

(14)

mixte. Pour cela, nous avons effectué une étude de simulation où meanAIC est calculé sur la base d’échantillons de données groupées et stratifiées simulées à partir de trois différents modèles écologiques de déplacement animal : un modèle de régression logistique conditionnelle mixte ordinaire, un modèle de régression logistique conditionnelle mixte avec autocorrélation temporelle et un modèle avec chaîne de Markov cachée, dit modèle multi-états. Nous nous sommes également intéressés à la comparaison de meanAIC et mAIC, ce dernier calculé à partir de la vraisemblance marginale du modèle et nécessitant la spécification de la structure des effets aléatoires. Les résultats de simulations suggèrent que meanAIC a une très bonne performance lorsque les groupes contiennent un nombre élevé de strates ou lorsque les effets fixes sont suffisamment forts. Il est surpassé par mAIC uniquement lorsque les effets fixes sont faibles et que les tailles des groupes ne sont pas suffisamment élevées. Nous avons également pu évaluer le manque de robustesse de mAIC face au choix de la structure des effets aléatoires en comparant les résultats de trois scénarios correspondant à trois différentes structures d’effets aléatoires. Nous avons conclu que la performance de mAIC dépend du choix de la structure des effets aléatoires et se détériore lorsque celle-ci est mal spécifiée.

Ce mémoire est structuré comme suit. Le premier chapitre présente les modèles de régression logistique conditionnelle mixte. On y trouvera une introduction à la méthode de collecte de données de sélection d’habitat et à deux principales méthodes d’inférence utilisées pour ces modèles, à savoir le maximum de vraisemblance et la méthode d’estimation en deux étapes ("Two-Step") deCraiu et al.(2011). Dans le deuxième chapitre, nous présentons tout d’abord meanAIC tel qu’introduit parCraiu and Duchesne(2018) pour les GLMMs ainsi que l’étude de simulation effectuée pour évaluer sa performance dans le cadre des modèles de régression logistique conditionnelle mixte. Finalement, le chapitre 3 illustre l’utilisation de meanAIC sur des données réelles de sélection d’habitat collectées sur des caribous dans la forêt boréale québecoise.

(15)

Chapitre 1

Régression logistique conditionnelle

mixte

Ce chapitre a pour objectif de présenter le modèle de régression logistique conditionnelle mixte dans le cadre des études de sélection d’habitat. Pour cela, nous commençons par introduire l’échantillonnage cas-témoins apparié selon lequel sont collectées les données. Ensuite, nous présentons la régression logistique conditionnelle à effets fixes. Dans la troisième section de ce chapitre, nous montrons l’intérêt des effets aléatoires dans la modélisation du comportement de sélection d’habitat et présentons le modèle de régression logistique conditionnelle à effets mixtes. Enfin, nous nous intéressons à deux principales méthodes d’estimation utilisées pour ces modèles, à savoir la maximisation de la vraisemblance marginale en ajustant un modèle multinomial logit mixte aux données (Duchesne et al. (2010)) et la méthode d’estimation "Two-Step" développée par Craiu et al.(2011).

1.1 Les données des études de sélection d’habitat

Les études de sélection d’habitat sont principalement basées sur les données de suivi télémé-trique des populations animales, collectées à l’aide de la technologie de Système de Position-nement Global (GPS). Des individus des espèces étudiées sont en effet équipés de colliers GPS qui enregistrent leurs positions à des intervalles de temps réguliers pendant toute la période de l’étude. Les caractéristiques des lieux visités par les animaux peuvent ensuite être obtenues à l’aide des Systèmes d’Informations Géographiques (SIG). Toutefois, les données relatives aux lieux visités à elles seules ne permettent pas la modélisation du comportement de sélection d’habitat. L’étude du comportement de sélection d’habitat nécessite en effet de comparer les caractéristiques des lieux visités avec celles des lieux non visités.

Les données de sélection d’habitat sont typiquement analysées en utilisant l’analyse discrimi-nante ou la régression logistique (ex.Sherburne and Bissonette(1994),Mladenoff et al.(1995),

(16)

Block et al. (1998)). Ces modèles comparent les caractéristiques des lieux visités à celles des lieux non visités en considérant la variable réponse binaire indiquant la présence où l’absence de l’animal sur le lieu et les variables expélicatives obtenues à l’aide du SIG. La variable ré-ponse prend la valeur "1" lorsque l’animal est présent sur le lieu et "0" sinon. Or, la définition des "0" n’est pas automatique dans ce cas puisque, contrairement aux positions visitées par l’animal et qui sont enregistrées à l’aide des colliers GPS, les lieux non visités doivent être choisis par le chercheur. Pour cela, deux principaux devis sont disponibles dans la littérature (McLoughlin et al. (2010)) : ceux basés sur la classification discrète de toutes les ressources disponibles (i.e. le devis présence ⁄ absence ou utilisé ⁄ non-utilisé) et ceux basés sur l’échan-tillonnage des ressources qui sont utilisées face à un échantillon des ressources disponibles (i.e. le devis utilisation ⁄ disponibilité). Dans le devis présence/absence, les chercheurs vont coder tous les lieux visités comme des "1" et tirer un échantillon de positions aléatoirement dans l’ensemble du domaine vital de l’animal pour définir les absences (codées "0"). En réalité par contre, les lieux visités par l’animal constituent un sous ensemble de tous les lieux visités sur le domaine vital et les "0" tels que définis par le devis présence/absence ne constituent pas nécessairement des vraies absences. Ces derniers auraient pu être identifiés comme uti-lisés s’ils avaient étaient surveillés de façon plus intensive ou pour une plus longue période (Johnson et al.(2006)). Ainsi, la prémisse sous-jacente au modèle de régression logistique se-lon laquelle les deux catégories comparées seraient mutuellement exclusives n’est pas vérifiée (Boyce (2010)). Une approche plus réaliste et peut-être plus honnête (Johnson et al. (2006)) serait de comparer les catégories "utilisés" vs "diponibles" (qui pourrait être utilisés ou non utilisés) et ajuster les estimations obtenues à l’aide des modèles de régression logistique en considérant qu’un certain nombre de "0" ne représentent pas de vraies absences (Keating and Cherry (2004) ;Johnson et al. (2006) ;Duchesne et al.(2010)). Il s’agit du devis utilisation / disponibilité.

Les premiers modèles de sélection d’habitat développés pour le devis utilisation/disponibilité considèrent que l’ensemble du domaine vital de l’animal lui est disponible entre deux temps d’observation successifs (Arthur et al.(1996)). Or, cette hypothèse ne s’applique clairement pas aux animaux ayant des domaines vitaux très larges relativement à la distance parcourue par un animal entre deux temps d’observation (Duchesne et al.(2010)). Il semble ainsi incorrect de croire que l’ensemble de leur domaine vital leur est disponible à chaque moment d’observation. Considérer un plan d’échantillonnage cas-témoins apparié peut être avantageux dans ce cas (Duchesne et al. (2010)). Ce plan d’échantillonnage consiste à associer chaque lieu visité à un ensemble de lieux non visités choisis aléatoirement dans un domaine d’espace limité (Boyce (2006)) qui correspond souvent à la distance où l’animal aurait pu se déplacer durant l’intervalle de temps de relocalisation. Notons que les endroits choisis aléatoirement représentent ici des absences réelles, puisque l’animal n’était assurément pas présent à ces endroits au moment de sa relocalisation (Duchesne et al.(2010)). Les données collectées selon un plan d’échantillonnage cas-témoins apparié sont typiquement analysées à l’aide d’un modèle

(17)

de régression logistique conditionnelle (Breslow et al. (1980), Hosmer et al. (1989), Ormsbee and McComb (1998)) que nous présentons dans la section suivante.

(a) Devis présence/abence : échantillon-nage des absences parmi tous les lieux non visités par l’animal dans l’ensemble de son domaine vital.parmi tous les lieux non visités par l’animal dans l’ensemble de son domaine vital.

(b) Devis utilisation/disponibilité : consi-dère que tout le domaine vital de l’animal lui est disponible à chaque temps d’ob-servation. Les lieux non visités sont trai-tés comme étant disponibles et non pas comme des absences.

(c) Devis cas-témoins apparié : les lieux non visités sont échantillonnés à l’inté-rieur d’un domaine limité qui correspond souvent à la distance où l’animal au-rait pu se déplacer durant l’intervalle de temps de relocalisation.

Figure 1.1 – Illustration des trois devis d’échantillonange de lieux non visités dans une étude de sélection d’habitat.

1.2 Régression logistique conditionnelle

L’échantillonnage cas-témoins apparié est aujourd’hui de plus en plus utilisé dans les études de sélection d’habitat. Selon ce mode d’échantillonange, chaque animal génère une strate de mesures associant chaque lieu visité (Y = 1) à un nombre fixé de lieux échantillonnés aléatoirement (Y = 0). Dans l’étude qui a motivé notre travail, chaque animal portant un collier GPS génère une strate de données composée de m = 1 lieu visité (avec ses covariables) et n − m = 20 emplacements choisis aléatoirement (avec leurs covariables) à chaque temps d’observation. L’échantillonnage cas-témoins apparié implique que la somme par strate des variables réponse (Y = 1 si le lieu est visité et Y = 0 pour les lieux disponibles non-visités)

(18)

est a priori connue ; il est dit rétrospectif.

Dans une étude prospective où les sommes par strate ne seraient pas fixées avant l’échantillon-nage, de telles données binaires pourraient être analysées à l’aide d’un modèle de régression logistique. Pour un échantillonnage cas-témoins apparié, on devrait tenir compte de l’aspect rétrospectif des données et plutôt utiliser la régression logistique conditionnelle (Breslow et al.

(1980), Hosmer et al.(1989), Ormsbee and McComb(1998)).

1.2.1 Notations

Une strate correspond à l’ensemble de mesures appariées générées par la même unité ex-périmentale. Pour une unité expérimentale, on considère un ensemble de données consti-tué de S strates indépendantes, la strate s contenant ms cas et ns− ms témoins, avec

s ∈ {1, ..., S} . Soit ˜Ys = (Ys1, ..., Ysns)

> _{le vecteur de réponses binaires de la s}ème strate et

˜

xs= (xs1, ..., xsns)

>_{, la matrice de dimension n}

s× p, contenant les valeurs des p covariables.

La sème strate contient donc les observations de la forme {(Y

si, xsi1, ..., xsip) , 1 ≤ i ≤ ns} .

Typiquement, dans les études de sélection d’habitat, les strates sont de la même taille (i.e., ns = n, pour tout s) et contiennent le même nombre de cas (i.e., ms= m, pour tout s, très

souvent, mais pas obligatoirement, m = 1).

À chaque temps d’observation ts, une strate de mesures est produite. Dans les études de

sélec-tion d’habitat, les cas d’une strate s correspondent aux lieux visités (Ysi= 1) et sont appariés

à ns− ms témoins correspondant aux lieux non visités (Ysi= 0) échantillonnés aléatoirement

parmi les lieux disponibles et accessibles pour l’animal au temps d’observation ts. Les

caracté-ristiques géographiques (environnementales) peuvent être compilées, pour chacun de ces lieux (visités ou non), et correspondent aux vecteurs des variables indépendantes xsi, 1 ≤ i ≤ ns.

1.2.2 Estimation des paramètres

Comme dans la régression logistique ordinaire, la régression logistique conditionnelle fait l’hy-pothèse que, pour tout s ∈ {1, ..., S} et i ∈ {1, ..., ns},

πsi = P ( Ysi = 1| xsi, αs) = expysi(αs+ β>xsi) 1 + exp(αs+ β>xsi) , (1.1) où β>_{= (β}

1, . . . , βp)est un vecteur de paramètres (les coefficients de régression) et αsmodélise

la corrélation dans les données de la même strate s et est appelée "effet strate" (Hosmer and Lemeshow(2000)). Ce terme n’est par contre pas estimable quand les données sont échantillon-nées selon un devis cas-témoins apparié. Nous montrons qu’il disparaît de la vraisemblance dans ce qui suit.

(19)

Fonction de vraisemblance

L’estimation par maximum de vraisemblance consiste à trouver β> _{= (β}

1, . . . , βp) qui

maxi-mise la fonction de vraisemblance observée L(β | ˜x, ˜y). La vraisemblance à maximaxi-miser doit être conditionnelleau mode d’échantillonnage utilisé, soit à l’information a priori connue qui est la somme des variables réponse par strate. Ainsi,

L(β | ˜x, ˜y) = P Y˜s= ˜ys, 1 ≤ s ≤ S x˜s= ˜xs, ns X i=1 Ysi = ms, 1 ≤ s ≤ S ! . (1.2)

Comme les strates sont supposées indépendantes,

L ( β| ˜x, ˜y) = S Y s=1 P Ysi = ysi, 1 ≤ i ≤ ns xsi, ns X i=1 Ysi= ms, 1 ≤ i ≤ ns ! . (1.3) Pour tout 1 ≤ i ≤ ns et 1 ≤ s ≤ S, on a P Ysi = ysi xsi, ns X i=1 Ysi= ms ! = P ( Ysi = ysi| xsi) P (Pns i=1Ysi = ms| xsi) , (1.4) où P ( Ysi = ysi| xsi, αs) = expysi β>xsi+ αs 1 + exp(β>xsi+ αs) .

En supposant que les variables aléatoires Ys1 | xs1, ..., Ysns | xsns sont indépendantes sachant

αs pour toutes les strates, on a

P ˜Ys = ˜ys x˜s, αs = ns Y i=1 P ( Ysi= ysi| xsi, αs) = ns Y i=1 expysi(β>xsi+ αs) 1 + exp (β>_x si+ αs) . (1.5) D’un autre côté, on a P ns X i=1 Ysi = ms xsi, αs ! = P `∈Ls Qns

i=1expvlsi(β >_x si+ αs) Qns i=1{1 + exp (β>xsi+ αs)} , (1.6)

où P`∈Ls est la somme parmi tous les vecteurs vls= (vls1, vls2, ..., vlsns) tels que vlsi ∈ {0, 1}

(20)

Ainsi la contribution d’une strate à la vraisemblance est Ls(β | ˜ys, ˜xs, , αs) = P Ysi = ysi, 1 ≤ i ≤ ns xsi, αs, ns X i=1 Ysi = ms, 1 ≤ i ≤ ns ! = P ( Ysi = ysi, 1 ≤ i ≤ ns| xsi, αs) P (Pns i=1Ysi= ms| xsi, αs, 1 ≤ i ≤ ns) = ns Y i=1 expysi β>xsi+ αs 1 + exp (β>xsi+ αs) P `∈Ls Qns

i=1expvlsi β>xsi+ αs

Qns i=1(1 + exp (β>xsi+ αs)) = exp (αs) Qns i=1exp ysiβ>xsi exp (αs)P`∈Ls Qns

i=1exp {vlsi(β>xsi)}

= Qns i=1exp β>xsi P `∈Ls Qns

i=1exp {vlsi(β>xsi)}

.

Notons que le terme αs disparaît de la vraisemblance. Ainsi,

Ls(β | ˜ys, ˜xs) = exp Pns i=1ysiβ >_x si P `∈Lsexp { Pns i=1vlsi(β>xsi)} , (1.7) d’où L(β | ˜y, ˜x) = S Y s=1 exp Pns i=1ysiβ >_x si P `∈Lsexp { Pns i=1vlsi(β>xsi)} . (1.8)

Maximiser la fonction de vraisemblance donnée par l’équation (1.8) revient à maximiser la fonction de vraisemblance d’un modèle de Cox stratifié (Hosmer and Lemeshow (2000)). Un modèle de régression logistique conditionnelle peut donc être facilement ajusté aux données vue la disponibilité du modèle de Cox dans plusieurs logiciels statistiques.

Exemple : 1 cas et n témoins par strate

Pour illustrer le développement mathématique présenté ci-dessus, nous proposons un exemple où les strates contiennent un seul cas et n−1 témoins, i.e. ms = m = 1et ns= n, pour tout s ∈

{1, ..., S}. La première étape est d’obtenir toutes les combinaisons possibles des Y_si, soit les v_`s, ` ∈ Ls. Dans ce cas, il existe n₁ = ncombinaisons possibles pour le vecteur ˜Ys= (Ys1, ..., Ysn).

(21)

consiste à écrire la contribution d’une strate à la vraisemblance, soit Ls(β|˜ys, ˜xs). Sans perte

de généralité, supposons que pour toutes les strates, la première observation, i.e Ys1, est celle

pour laquelle y = 1. Ainsi, pour tout s ∈ {1, ..., S}, ˜ys= (1, 0, ..., 0) et on a

Ls(β | ˜ys, ˜xs) = P Ys1= 1, Ys2 = 0, ..., Ysn= 0 xsi, n X i=1 Ysi= 1, 1 ≤ i ≤ n ! . D’après l’équation (1.7), Ls(β | ˜ys, ˜xs) = exp β>xs1 Pn i=1exp (β>xsi) , (1.9) d’où L(β | ˜y, ˜x) = S Y s=1 Ls(β | ˜ys, ˜xs) = S Y s=1 exp β>xs1 Pn i=1exp (β>xsi) . (1.10)

1.3 Effets aléatoires dans la régression logistique

conditionnelle

Bien que le modèle de régression logistique conditionnelle à effets fixes soit largement utilisé pour les données collectées selon un plan d’échantillonnage cas-témoins apparié, il existe plu-sieurs situations où celui-ci n’est pas adéquat : les strates doivent être indépendantes. Cette hypothèse n’est clairement pas vérifiée en présence de données groupées où les strates de mesures appariées proviennent d’un même individu ou groupes d’individus corrélés. C’est jus-tement le cas des études de sélection d’habitat, où chaque animal suivi génère plusieurs strates de mesures. En outre, Duchesne et al.(2010) montrent que les modèles à effets fixes risquent de fournir des conclusions erronées lorsque le comportement de sélection d’habitat n’est pas homogène dans la population suivie ou lorsque l’hypothèse d’Indépendance des Alternatives non Pertinentes (Independence of Irrelevent Alternatives (IIA), (Revelt and Train (1998))) n’est pas vérifiée. L’hypothèse IIA stipule que le degré de préférence de l’habitat de type A par rapport à l’habitat de type B ne dépend pas des autres habitats également disponibles. C’est-à-dire, la probabilité relative qu’un animal choisisse l’alternative A plutôt que l’alterna-tive B ne dépend que des caractéristiques des alternal’alterna-tives A et B. L’IIA implique ainsi que le ratio des deux probabilités, P (A)

P (B), ne change pas quand on rajoute ou enlève des

alterna-tives. Par exemple, en passant de 50% − 50% à 33% − 33%, les probabilités changent, mais leur ratio est inchangé. Cette hypothèse est souvent non vérifiée dans les études de sélection d’habitat puisque les décisions comportementales des animaux reflètent les compromis entre

(22)

les multiples demandes concurrentes.Duchesne et al. (2010) citent dans leur article l’exemple du bouquetin de Nubie, dont les efforts de recherche de nourriture varient selon la présence ou l’absence d’une falaise à proximité. En présence d’un abri, la zone de nourriture peut être préférée à une autre zone (par exemple 30% − 20% pour ces deux zones, 50% pour le reste, pour un ratio de 30

20 = 1.5), mais en présence d’une falaise et non d’un abri on peut préférer

l’autre zone à la zone de nourriture (On passe donc à 20% − 60% et 20% pour le reste, le ratio passe à 20

60 = 0.33). Il s’agit ainsi d’un exemple de dépendance spatiale qui pourrait violer

l’hypothèse d’IIA.

Comme pour les modèles de régression logistique mixtes, la corrélation intra-groupe et l’hé-térogénéité inter-groupe, présentes dans les données groupées et stratifiées, sont modélisées à l’aide d’effets aléatoires spécifiques aux groupes, intégrés dans le prédicteur linéaire du modèle de régression logistique conditionnelle. Ces modèles sont d’une grande utilité pour les études de sélection d’habitat, puisqu’ils permettent d’obtenir des estimés robustes à la violation des hypothèses d’indépendance des strates, de l’homogénéité de la réponse et de l’IIA (Duchesne et al. (2010)). Dans ce qui suit, nous présentons le modèle de régression logistique condition-nelle à effets mixtes ainsi que les principales méthodes d’inférence utilisées dans le cadre des études de sélection d’habitat, à savoir le maximum de vraisemblance (Duchesne et al.(2010)) et la méthode d’estimation en deux étapes ,"Two-Step", de Craiu et al. (2011).

1.3.1 Données et modèle

On considère une population constituée de K groupes indépendants, chacun contenant Sc

strates, avec 1 ≤ c ≤ K. Chaque state contient mc

s cas et mcs − ncs témoins, avec 1 ≤

s ≤ Sc . Soit ˜Y_sc = (Y_s1c, ..., Y_sncc s)

> _{le vecteur de réponses binaires de la s}ème strate du

cème groupe et ˜xc

s = (xcs1, ..., xcsnc s)

>_{, la matrice de dimension n}c

s × p, contenant les valeurs

des covariables. La sème strate du cème groupe contient donc les observations de la forme

n Yc si, xcsi1, ..., xcsip , 1 ≤ i ≤ nc so. Écriture du modèle

Nous utilisons la même notation que dans l’article de Craiu et al.(2011). Mathématiquement, pour p variables exogènes, nous supposons généralement que le modèle a q effets aléatoires et p − q coefficients de régression fixes. Soit zc

si = (zcsi1, . . . , zsiqc )> le vecteur de valeurs fixes

spécifiant la structure des effets aléatoires et correspondant habituellement au sous ensemble des variables exogènes pour lesquelles les coefficients de régression sont aléatoires. Le prédicteur linéaire pour l’observation (s, i) du cème groupe est ainsi sous la forme β>_xc

si+ b>czsic

. Les effets aléatoires b1, ..., bK sont supposés indépendants et identiquement distribués avec fonction

de répartition commune notée F (b | θ), où θ est un vecteur de paramètres inconnus.

(23)

(voir la section 1.2.2). Ainsi, pour 1 ≤ c ≤ K, 1 ≤ s ≤ Sc _{et 1 ≤ i ≤ n}c s, P ( Y_sic = y_sic| xc_si, bc) = expyc si β>xcsi+ b>czsic 1 + exp (β>xc_si+ b>_cz_sic) , (1.11) P  Y_sic = yc_si xc_si, bc, nc s X i=1 Y_sic= mc_s  = P ( Y_sic = y_sic| xc si, bc) P Pncs i=1Ysic = mcs x c si, bc , (1.12) P   ncs X i=1 Y_sic = mc_s xc_si, bc  = P `∈Lc s Qncs

i=1expvclsi β>xcsi+ b>czsic

Qncs

i=1(1 + exp (β>xcsi+ b>czcsi))

, (1.13) où P`∈Lc

s est la somme parmi tous les vecteurs v

c ls= (vcls1, vcls2, ..., vclsnc s) tels que v c lsi ∈ {0, 1} pour tout 1 ≤ i ≤ nc s et P nc s i=1vclsi= mcs.

Ainsi la contribution du cème groupe à la vraisemblance est

Lc(β, θ) = P Ysic= ycsi, ∀s, i xc_si, ns X i=1 Y_sic = mc_s, ∀s, i ! = R Q s Q iP Y_sic = y_sic b, xc_si dF (b | θ) R Q sP ( P iYsic= mcsi| b, xcs) dF (b | θ) . (1.14)

D’après les équations (1.11), (1.12), (1.13) et (1.14), la vraisemblance du modèle s’écrit

L(β, θ) = K Y c=1 exp(P siysicβ>xcsi)R exp(Psiysicb>zcsi)dc(β, b)dF (b | θ) R dc_{(β, b)}Q s P `∈Lsexp P ivc`si(β>xcsi+ b>zcsi)dF (b | θ) , (1.15) où dc_{(β, b) =}Q s Q i1 + exp(β >_xc si+ b >_zc si) −1 . 1.3.2 Estimation et inférence

Dépendemment du nombre de cas par strate et du nombre de strates par groupe, on distingue trois méthodes d’inférence pour les modèles de régression logistique conditionnelle mixte. Un premier cas de figure est lorsqu’il y a une seule strate par groupe mais plusieurs cas par strate. C’est souvent le cas pour les études sur les maladies génétiques rares, où les données sont collectées sur des familles avec m ≥ 2 cas d’une certaine maladie rare. Pfeiffer et al. (2001) analysent des données similaires et ajustent un modèle de régression logistique conditionnelle mixte par maximum de vraisemblance. Dans ce cas, l’optimisation de la vraisemblance mar-ginale (voir équation (1.15)) est faite numériquement en utilisant l’intégration classique de

(24)

Monte Carlo couplée avec une combinaison de la méthode de Newton pour β et de la re-cherche exhaustive sur une grille pour θ. Le deuxième cas de figure est lorsqu’il y a plusieurs strates par groupe mais un seul cas par strate, soit m = 1. Dans ce cas, un modèle de choix discret multinomial logit mixte peut être ajusté aux données. Ce modèle a été étudié dans la littérature économétrique (Train (2003), Train and Weeks (2005)), est équivalent au mo-dèle de régression logistique conditionnelle mixte et est habituellement ajusté à l’aide de la maximisation numérique de la vraisemblance marginale (Craiu et al. (2011)) basée sur la mé-thode d’intégration de Monte Carlo couplée avec une mémé-thode de type Newton (Bhat(2001) ;

Sándor and Train (2004) ; Hess et al. (2006) ). Il s’agit de l’approche adoptée par Duchesne et al.(2010) dans leur article sur la régression logistique conditionnelle mixte pour la sélection d’habitat. Le cas plus général où on aurait plusieurs strates par groupe et plusieurs cas par strate est traité par Craiu et al.(2011) qui proposent la méthode "Two-Step". Il s’agit d’une méthode d’estimation en deux étapes qui consiste à ajuster un modèle de Cox stratifié aux données de chaque groupe séparément pour en suite combiner les estimés obtenus en utilisant un algorithme EM-REML.

Dans ce mémoire, nous nous intéressons aux méthodes applicables aux données de sélection d’habitats où les groupes sont typiquement composés de plusieurs strates. Ainsi, dans ce qui suit, nous présentons la méthode basée sur le modèle multinomial logit mixte (Duchesne et al.

(2010)) et la méthode "Two-Step" proposée par Craiu et al. (2011).

Estimation par maximum de vraisemblance : modèle multinomial logit mixte Dans cette section nous présentons une approche basée sur la théorie des utilités aléatoires (Cooper and Millspaugh(1999)) pour ajuster un modèle de régression logistique conditionnelle mixte aux données sur la sélection d’habitat telle qu’abordée parDuchesne et al.(2010). Cette approche est valable lorsque les strates contiennent un seul cas (i.e m = 1) et dans ce cas elle correspond au modèle multinomial logit mixte (Revelt and Train(1998)). Elle consiste à ajuster un modèle multinomial logit mixte dans lequel chaque animal attribue une valeur aléatoire U, appelée utilité, à tous les sites disponibles à un moment donné et choisi celui avec l’utilité la plus élevée (Cooper and Millspaugh(1999) ;McDonald et al. (2006)).

Notations Soit c = 1, . . . , K l’indice distinguant les individus, s = 1, . . . , Sc les temps d’observation de la position de l’animal c et l’indice correpondant aux strates générées par l’animal c, et i = 1, . . . , nc

s les sites disponibles pour l’animal c au temps ts. Le modèle

multinomial logit considère les utilités comme des variables aléatoires, avec Uc

si l’utilité que

l’animal c attribue au lieu i disponible au moment d’observation ts. Soit xc_si1, . . . , xc_sip les

valeurs des p covariables (ex. les caractéristiques d’habitat) mesurées au ième lieu disponible

(25)

ième lieu dépend de ces caractéristiques comme suit :

U_sic = β1xcsi1+ β2xcsi2+ . . . + βpxcsip+ bc1zsi1c + bc2zsi2c + . . . + bcqzsiqc + csi, (1.16)

où β1, . . . , βp sont les coefficients fixes, bc1, . . . , bcq les effets aléatoires spécifiques à l’animal c,

z_si1c , . . . , z_siqc sont des valeurs fixes spécifiant la structure des effets aléatoires (souvent égales au sous ensemble des variables exogènes pour lesquelles les coefficients sont aléatoires), c

sisont

des termes d’erreurs aléatoires indépendants et identiquement distribués, β = (β1, . . . , βp)>,

xc_si = (xc_si1, . . . , xc_sip)>, bc = (bc1, . . . , bcq)> et z_sic = (z_si1c , . . . , z_siqc )>. Nous n’intégrons pas

d’ordonnée à l’origine car celle-ci n’est pas estimable pour les modèles de régression logistique conditionnelle, tel que mentionné dans la section 1.2.2.

Les effets aléatoires sont supposés indépendants et identiquement distribués de densité f(b | θ), où θ est un vecteur de paramètres inconnus. Bien que la distribution des effets aléatoires soit gé-néralement choisie normale multivariée de vecteur moyenne 0 et de matrice variance-covariance à estimer (Gillies et al.(2006) ;Hebblewhite and Merrill(2008)), d’autres distributions peuvent être considérées telles que la log-normale, l’uniforme ou la triangulaire (Bhat (2001)).

On fait également l’hypothèse que les erreurs aléatoires sont indépendantes et identiquement distribuées dont la densité est donnée par

f(x) = exp(−x) exp(−e−x) ; −∞ < x < ∞. (1.17)

Sous ces hypothèses, la probabilité que le cème animal choisisse l’endroit i parmi l’ensemble

des lieux disponibles {1, . . . , nc

s}au moment d’observation ts, c-à-d Usic > Usjc, ∀i 6= j, est

P n U_sic ≥ max(U_s1c, ..., U_sncc s) o = exp β >_xc si+ b>czcsi Pnsc

i=1exp (β>xcsi+ b>czccsi)

. (1.18)

Lorsque tous les zc

si dans l’équation (1.16) prennent la valeur 0 ou lorsque la variance de bc

est nulle (i.e. bcest 0), l’équation (1.18) se simplifie ainsi

PnU_sic ≥ max(Uc s1, ..., Usnc c s) o = exp β >_xc si Pncs i=1exp (β>xcsi) . (1.19)

Et nous obtenons la fonction de vraisemblance du modèle de régression conditionnelle à effets fixes (voir équation (1.10)) (McDonald et al. (2006)).

Estimation et inférence Nous considérons maintenant l’estimation par maximum de vrai-semblance des paramètres du modèle décrit dans les équations (1.16) et (1.18). Afin de sim-plifier la notation et sans perte de généralité, nous supposons que le lieu choisi par l’animal

(26)

c parmi les nc

s lieux disponibles au temps s est la position ayant l’indice i = 1 (et ainsi les

lieux non choisis ont les indices i = 2, . . . , nc

s). L’estimation des paramètres du modèle et de la

distribution des effets aléatoires par maximum de vraisemblance consiste à trouver les valeurs de β et de θ maximisant la quantité : L(β, θ) = K Y c=1 Z Sc Y s=1 exp β>xc_s1+ b>zc_s1 Pnsc i=1exp (β>xcsi+ b>zsic) f (b|θ)db. (1.20)

La maximisation numérique directe de la vraisemblance marginale L(β, θ) donnée par (1.20) peut être difficile, car elle implique des intégrales qui ne peuvent être calculées analytiquement. Ainsi, Bhat (2001) décrit des méthodes de simulation basées sur les nombres quasi-aléatoires (pseudo-aléatoires) de Halton qui peuvent évaluer efficacement cette fonction de vraisemblance. Les modèles de régression logistique conditionnelle mixte peuvent également être ajustés à l’aide de méthodes bayésiennes, mais cette approche nécessite de spécifier des distributions a priori (informatives ou non) pour β, θ. On pourrait également mentionner l’estimation par équations d’estimation généralisées (GEE) (Craiu et al. (2008)) car, bien qu’elle ne modélise pas la corrélation explicitement, elle en tient compte dans les inférences sur les coefficients de régression (Duchesne et al.(2010)).

Estimation en deux étapes pour le modèle de régression logistique conditionnelle mixte : la méthode "Two-Step"

Dans leur article, Craiu et al. (2011) se sont intéressés à l’analyse de données sur la sélection d’habitat générées par plusieurs paires de bisons femelles suivies pendant plusieurs semaines à l’aide de colliers GPS. Dans cette étude, chaque paire de bisons (groupe d’individus corrélés) génère une strate de mesures composée de deux cas (m = 2), correspondant aux lieux choisis par les deux bisons femelles formant une seule paire, appariés à n−m lieux témoins. Ainsi, ces données contiennent à la fois plusieurs cas (m > 1) par strate et plusieurs strates par groupe, ce qui rend la maximisation numérique de la fonction de vraisemblance marginale du modèle, donnée par l’équation (1.15), difficile et instable (Craiu et al. (2011)). Craiu et al. (2011) s’intéressent donc au principe d’estimation en deux étapes, largement utilisé pour ajuster les premiers modèles de régression logistique mixtes (Korn and Whittemore (1979) ; Stiratelli et al. (1984)).

Les méthodes d’estimation en deux étapes sont basées sur le fait que les observations sont in-dépendantes sachant la valeur de l’effet aléatoire associé au groupe auquel elles appartiennent. L’inférence sur les paramètres du modèle au niveau de chaque groupe peut donc être faite à l’aide de modèles de régression ordinaires à effets fixes. Ainsi, l’estimation en deux étapes consiste, dans une première étape, à maximiser les vraisemblances obtenues conditionnellement aux effets aléatoires spécifiques à chaque groupe, puis de combiner les estimés obtenus pour les paramètres en des estimés globaux. Pour les modèles de régression logistique conditionnelle

(27)

mixte et pour des données groupées et stratifiées en K groupes indépendants, K modèles de Cox stratifiés à effets fixes sont ajustés par maximum de vraisemblance séparément à chacun des K groupes. Ainsi, des estimés des coefficients de régression et leurs matrices de variance sont obtenus pour chaque groupe.

Soitn ˆβc, c = 1, . . . , Ko les K estimés de β obtenus pour dans les K groupes et n ˆRc, c = 1, . . . , K

o leurs estimés de variance respectifs. Si le nombre d’observations par groupe est élevé, alors la théorie sur le maximum de vraisemblance implique que chacun des K estimés de coefficients de régression est approximativement normal (Craiu et al.(2011)). Lorsque la normalité approxi-mative des K estimés de coefficients de régression obtenus à la première étape est combinée avec la normalité des effets aléatoires, nous obtenons qu’estimer les coefficients du modèle glo-bal revient à estimer la moyenne d’une distribution normale multivariée (Craiu et al. (2011)) sur la base de K observations indépendantes (les K estimés obtenus à la première étape) de matrices de variances différentes.

Supposer une distribution conjointe normale pour les effets aléatoires est la norme en pratique pour les modèles à effets mixtes (Tuerlinckx et al.(2006) ;Craiu et al.(2011)). Plusieurs auteurs ont investigué la robustesse des inférences lorsque cette hypothèse n’est pas vérifiée ; elle semble problématique uniquement dans le cas où la vraie distribution des effets aléatoires est discrète avec une variance élevée (Craiu et al.(2011) ;Agresti et al.(2004)). Ainsi, comme dans l’article deCraiu et al.(2011), on fait l’hypothèse que F (b | θ) est la distribution normale multivariée de moyenne 0 et de matrice de variance-covariance P. Notons que différentes structures peuvent être supposées pour P, dépendamment de nos connaissances sur les données (Craiu et al.

(2011)).

L’approche développée parCraiu et al.(2011) pour combiner les estimés obtenus à la première étape du processus d’estimation est inspirée du travail fait par Chervoneva et al. (2006), qui ont proposé une méthode d’estimation en deux étapes basée sur la maximisation de la vraisemblance restreinte (REML). Toutefois, contrairement à Chervoneva et al. (2006) qui ont utilisé l’approche Newton-Raphson de Lindstrom and Bates (1988), Craiu et al. (2011) utilisent un algorithme-EM, dérivé du travail deMeng and Van Dyk(1998), pour implémenter l’estimation REML dans la deuxième étape de leur méthode d’estimation.

Afin de mieux comprendre l’algorithme EM-REML proposé par Craiu et al. (2011), nous rapportons l’exemple présenté dans leur article.

Exemple illustratif Supposons que nous avons trois paires d’animaux, c’est-à-dire c ∈ {1, 2, 3}, et que nous voudrions ajuster un modèle avec un seul coefficient aléatoire (β1+ bc1)

pour la variable exogène x1 et un coefficient fixe (β2+ 0)pour la variable x2. Ainsi, ici K = 3,

p = 2, q = 1, P = "

θ₁2 0 0 0 #

, var(bc1) = θ21 et D = I3⊗P, où I3est la matrice identité 3 ×3 et

(28)

comme suit :

Étape 1 – Estimation par groupe : Pour chaque c ∈ {1, 2, 3} : obtenir ˆβ_c= ( ˆβc1, ˆβc2)>,

l’estimateur de maximum de vraisemblance pour βc = (βc1, βc2)>, et l’estimé de sa matrice

de variance-covariance, ˆRc, en utilisant les données provenant de la même paire d’animaux c,

sous l’hypothèse que toutes les strates dans le groupe c sont indépendantes. Il faut noter qu’en ajustant le modèle à chaque groupe séparément, nous performons une inférence conditionnelle, et donc ˆβc1 estime β1+ bc1. Posons β1st= ( ˆβ1>, ˆβ2>, ˆβ3>).

Étape 2 – l’estimation de β et P par EM-REML : 1. Posons ˜P = θ2

1, U = ( ˆβ11, ˆβ21, ˆβ31)>, ¯R = diag( ˜R1, ˜R2, ˜R3), où ˜Rc = var( ˆˆ βc1), et

˜ D = θ2₁I3. 2. Calculer W1 = (1, 1, 1)> et M = I3− W1W1>/3. Poser S_D˜ =nM (M>RM )˜ −1M>+ ˜D−1o−1 et µD˜ = SD˜M (M>RM )˜ −1M>U. 3. Initialiser θ2 1.

4. Itérer les étapes E et M de l’algorithme-EM décrites ci-dessous jusqu’à convergence : Étape E : Calculer Q( ˜D | ˜D∗) = −3 2ln(θ 2 1) − 1 2tr n ˜_D−1 (SD˜∗+ µD˜∗µD˜∗>) o Étape M : Obtenir θ₁2= 1 3 3 X c=1 (S_ccD˜∗+ µ_cD˜∗µD_c˜∗>), où S_D˜∗

cc est le cème élément sur la diagonale de S ˜

D∗ _{et µ}D˜∗

c est le cèmeélément du vecteur

µD˜∗.

5. Calculer Q = ( 1 1 1 )> _{⊗ I}

2 et ˆV = ˆD + ˆR. L’estimateur ˆβ et sa variance sont

respectivement donnés par ˆ β = (Q ˆV−1Q>)−1Q ˆV−1βˆ1st et ˆ var( ˆβ) = (Q ˆV−1Q>)−1. (1.21) Pour initialiser θ2

1 à l’étape 2, on peut prendre par exemple θ21 = 0.1.

1.4 Conclusion du chapitre

L’échantillonnage cas-témoins apparié et la régression logistique conditionnelle sont de plus en plus utilisés dans les études de sélection d’habitat basées sur des données télémétriques

(29)

de déplacement animal. L’échantillonnage cas-témoins apparié consiste à associer chaque lieu visité par l’animal (les cas) à un ensemble de lieux témoins échantillonnés aléatoirement dans un domaine d’espace limité autour du lieu visité. Ces données sont analysées à l’aide de modèles de régression logistique conditionnelle mixte où la corrélation intra-groupe et l’hétérogénéité inter-groupe sont modélisées à l’aide des effets aléatoires. Dans ce chapitre, nous avons présenté deux méthodes d’inférence pour les modèles de régression logistique conditionnelle mixte : l’estimation par maximum de vraisemblance, telle que proposée par Duchesne et al. (2010), et la méthode d’estimation en deux étapes, "Two-Step", de Craiu et al.(2011). La méthode proposée par Duchesne et al. (2010) traite le cas où les strates contiennent un seul cas et consiste à ajuster un modèle mutinomial logit mixte (Train (2003)) aux données.Craiu et al.

(2011) s’intéressent au cas où il y a un nombre général de cas (m ≥ 1) par strate. Ils ont développé la méthode d’estimation "Two-Step" qui consiste, dans une première étape, à ajuster des modèles de Cox stratifiés aux données de chaque groupe séparément pour ensuite combiner les estimés obtenus en un seul estimé global. Ils se sont inspirés du travail deChervoneva et al.

(2006) et Meng and Van Dyk (1998) et ont développé l’algorithme EM-REML pour réaliser la deuxième étape de l’estimation. Cette méthode est efficace et stable lorsque le nombre de strates par groupe est assez élevé (> 30) pour garantir la normalité approximative des estimés obtenus à la première étape du processus d’estimation.

Dans le chapitre suivant, nous évaluons, par simulation, la performance de meanAIC comme critère de sélection de variables pour les modèles de régression logistique conditionnelle mixte. L’intérêt de meanAIC réside dans le fait qu’il soit calculable lorsque le modèle est ajusté à l’aide d’une méthode d’estimation en deux étapes, telle que "Two-Step", même lorsque la structure des effets aléatoires est a priori inconnue.

(30)

Chapitre 2

Étude de simulation : meanAIC

comme critère de sélection de variables

pour les modèles de régression

logistique conditionnelle mixte

L’objectif de ce chapitre est d’évaluer la performance de meanAIC comme critère de sélection de variables pour les modèles de régression logistique conditionnelle mixte. Il s’agit d’un critère basé sur l’information d’Akaike, calculable lorsque le modèle est ajusté à l’aide d’une méthode d’estimation en deux étapes même lorsque la structure des effets aléatoires est inconnue. Ainsi, nous commençons par présenter meanAIC tel qu’introduit par Craiu and Duchesne (2018). Ensuite, nous présentons l’étude de simulation réalisée pour évaluer sa performance dans le cadre des modèles de régression logistique conditionnelle mixte. Nous avions également comme objectif la comparaison de meanAIC et mAIC, ce dernier calculé à partir de la vraisemblance marginale du modèle multinomial logit mixte (section 1.3.2) et nécessitant la spécification des effets aléatoires. Ainsi, la section 2.2 présente les différents devis et les algorithmes de simulation utilisés pour générer les données : modèle de régression logistique conditionnelle mixte ordinaire, modèle de régression conditionnelle mixte avec autocorrélation temporelle et enfin, le modèle de régression logistique conditionnelle mixte à chaîne de Markov cachée. Les résultats de simulation sont résumés et analysés dans la section 2.3. Finalement, la section 2.4 présente les principales conclusions concernant la performance de meanAIC et mAIC. Notons que les notations utilisées tout au long de ce chapitre sont les mêmes que celles introduites dans le chapitre 1.

(31)

2.1 meanAIC pour les modèles linéaires généralisés mixtes

Dépendamment du domaine d’étude, le choix de modèle peut être principalement basé sur les critères d’information plutôt que sur les méthodes de régularisation. C’est le cas, par exemple, des applications en écologie ou en sciences sociales (Craiu and Duchesne (2018)). Toutefois, ces critères sont difficilement calculables en présence de données massives, notamment pour les modèles linéaires généralisés mixtes. En effet, lorsque les individus étudiés génèrent un très grand nombre d’observations, les méthodes d’estimation traditionnelles basées sur la maximi-sation de la vraisemblance marginale deviennent numériquement instables ou très complexes à appliquer et sont donc remplacées par les méthodes d’estimation en deux étapes (Korn and Whittemore (1979) ;Stiratelli et al.(1984)). Pour les modèles linéaires généralisés mixtes, ces méthodes consistent à ajuster des GLMs1 _{à effets fixes aux données de chaque groupe}

sépa-remment dans une première étape et de combiner les estimés obtenus en un seul estimé global dans la deuxième étape (voir chapitre 1). Les critères d’information, basés sur la vraisemblance marginale du modèle, ne peuvent donc pas être calculés dans ce cas, puisque la vraisemblance marginale de l’échantillon complet n’a jamais été calculée lors du processus d’estimation en deux étapes. C’est dans ce sens queCraiu and Duchesne(2018) proposent le critère meanAIC. meanAIC est un critère de sélection de variables basé sur l’information d’Akaike, calculable lorsque le modèle est ajusté à l’aide d’une méthode d’estimation à deux étapes. En outre, et contrairement aux critères basés sur la vraisemblance marginale, le calcul de meanAIC ne nécessite pas la spécification de la structure des effets aléatoires. Il est donc particulièrement utile dans les stades préliminaires de la construction de modèles, puisqu’il nous permet de choisir les variables à inclure dans le modèle sans avoir, a priori, à supposer une structure pour les effets aléatoires, qui est généralement inconnue au début de l’analyse.

2.1.1 Calcul de meanAIC

On considère une population constituée de K groupes (individus) indépendants, chacun conte-nant ni observations corrélées de la forme (Yij, xij1, ..., xijp)>, i = 1, ..., K, j = 1, ..., ni, où Y

est la variable réponse, et x1, ..., xp les variables explicatives considérées. On suppose

qu’au-cune des variables explicatives n’est constante pour toutes les observations d’un groupe. Cette hypothèse est nécessaire à l’application des méthodes d’estimation en deux étapes et donc pour le calcul de meanAIC (Craiu and Duchesne (2018)). En ajustant un modèle de régression gé-néralisé mixte aux données à l’aide d’une méthode à deux étapes, meanAIC est simplement la moyenne de tous les K AICs des GLMs ordinaires ajustés à chacun des groupes séparemment dans la première étape de la procédure d’estimation :

meanAIC = _K1 PK

i=1AICi,

(32)

où AICi= −2 log fi+ 2(p + 1)avec fi la fonction de vraisemblance maximisée du GLM ajusté

aux données du ième groupe et p le nombre de variables explicatives dans le modèle.

Craiu and Duchesne (2018) ont basé leur développement théorique de meanAIC sur l’hy-pothèse implicite que le nombre d’observations par groupe, ni, est suffisamment élevé pour

tout i = 1, ..., K. Cette condition est généralement satisfaite lorsque les méthodes d’inférence à deux étapes sont utilisées (Craiu and Duchesne (2018), Molenberghs et al. (2011)). Ils ont également effectué une étude de simulation où ils comparent meanAIC à mAIC, ce dernier calculé à partir de la vraisemblance marginale du modèle linéaire généralisé mixte (Vaida and Blanchard(2005)). Ils considèrent un certain nombre de combinaisons de taille de groupe (pe-tite, moyenne et grande), variance des coefficients aléatoires (petit, moyen et grand), taille des effets fixes (petite et modérée) et différentes distributions pour les effets aléatoires (normale, gamma et t). Les résultats montrent que meanAIC trouve le vrai modèle plus souvent que mAIC pour toutes les combinaisons de paramètres, sauf pour le cas où la taille du groupe, la variance de l’effet aléatoire et la taille de l’effet fixe sont simultanément petits. Ils ont égale-ment pu montrer, à l’aide de données réelles, que la sélection de variables proposée par mAIC peut varier selon la structure des effets aléatoires supposée, ce qui le rend donc moins robuste que meanAIC.

2.1.2 Calcul de meanAIC pour les modèles de régression logistique conditionnelle mixte

Les quantités nécessaires pour dériver meanAIC sont également calculables dans le cas des modèles de régression logistique conditionnelle à effets mixtes, puisque les vraisemblances spé-cifiques aux groupes peuvent être optimisées en ajustant un modèle de Cox stratifié séparément aux données de chaque groupe (voir chapitre 1). Ce critère sera particulièrement utile pour les études comportementales en écologie, où la sélection de variables est traditionnellement basée sur des critères d’information. Ces études analysent les données télémétriques de certains ani-maux localisés à des fréquences élevées (au bout de chaque heure) pendant plusieurs semaines et parfois pour plusieurs années. Tel qu’expliqué dans le chapitre 1, le recours aux méthodes d’estimation en deux étapes est souvent nécessaire pour les modèles de régression logistique conditionnelle mixte ajustés à des données similaires, d’où l’intérêt de meanAIC.

On considère une population constituée de K groupes indépendants, chacun contenant Sc

strates, avec c = 1, ..., K. Comme c’était le cas pour les GLMMs de Craiu and Duchesne

(2018), meanAIC est calculé en moyennant les AICs des K modèles de Cox stratifiés à effets fixes, ajustés dans chaque groupe. Ainsi,

meanAIC = _K1 PK

i=1AICi,

(33)

maximisée du modèle de Cox stratifié ajusté aux données du ième groupe et p le nombre de

variables explicatives dans le modèle.

La performance de meanAIC n’a par contre pas été évaluée par Craiu and Duchesne(2018) dans le cas des modèles de régression logistique conditionnelle mixte ; il s’agit de l’objectif principal de ce mémoire. La section suivante présente l’étude de simulation effectuée pour ré-pondre à cet objectif. Les résultats de cette étude suggèrent que meanAIC est très performant lorsque les tailles des groupes, i.e Sc_{, sont suffisement élevées. En outre, la comparaison avec}

mAIC, calculé à partir de la vraisemblance marginale du modèle multinomial logit mixte et nécessitant la spécification de la structure des effets aléatoires, montre que meanAIC est sur-passé par mAIC uniquement lorsque les effets fixes sont faibles et que les tailles des groupes sont petites. Les résultats de simulation montrent également que la performance de mAIC dépend de la structure des effets aléatoires choisie et est minimale lorsque celle-ci est mal spécifiée. Ainsi meanAIC pourait être utilisé comme premier filtre pour les variables lorsque nous n’avons aucune connaissance sur la structure des effets aléatoires.

2.2 Étude de simulation

L’objectif principal de cette étude de simulation est d’évaluer la performance de meanAIC comme critère de sélection de variables pour les modèles de régression logistique mixte lorsque la structure des effets aléatoires est inconnue. Pour cela, nous avons considéré trois devis de simulation de données groupées et stratifiées et différentes combinaisons de paramètres de simulation. En outre, nous nous sommes intéressés à la comparaison de meanAIC et mAIC, ce dernier calculé à partir de la vraisemblance marginale du modèle multinomial logit mixte. Contrairement à meanAIC, le calcul de mAIC nécessite de supposer une structure pour les effets aléatoires du modèle. Un troisième objectif serait donc d’évaluer la robustesse de mAIC face à un mauvais choix pour la structure des effets aléatoires. Ce dernier objectif est en ligne avec notre objectif principal de proposer un critère de sélection de variables sans avoir à spécifier la structure des effets aléatoires.

2.2.1 Simulation de données groupées et stratifiées

Telles qu’introduites dans le chapitre 1, les données de sélection d’habitat proviennent d’un plan d’échantillonnage cas-témoins apparié. Elles sont principalement collectées à l’aide de colliers GPS installés sur les animaux et permettant leur relocalisation à des intervalles de temps réguliers. Ces données sont généralement analysées à l’aide d’un modèle de régression logistique conditionnelle mixte où la corrélation intra-individu est modélisée à l’aide des ef-fets aléatoires (voir section 1.3). Grâce à l’évolution de la technologie GPS, il est aujourd’hui possible de relocaliser les animaux à des fréquences élevées, notamment 24 fois ou même plus dans une journée (Prima et al.(2017)). Dans ce cas, la corrélation entre les observations d’un