Simulations Monte Carlo et tests de score sur les matrices nulles : approche par inférence exacte

(1)

© Boucar Ly, 2019

Simulations Monte Carlo et tests de score sur les

matrices nulles: Approche par inférence exacte

Mémoire

Boucar Ly

Maîtrise en statistique - avec mémoire

Maître ès sciences (M. Sc.)

(2)

Simulations Monte Carlo et tests de score sur les

matrices nulles: Approche par inférence exacte

Mémoire

Boucar LY

Sous la direction de: Louis-Paul Rivest

(3)

Résumé

Ce document propose des outils de simulation de matrices nulles basés sur la loi conditionnelle d’une matrice de présence-absence sachant ses statistiques exhaustives. Ces outils sont basés sur la régression logistique et de plus, ils tiennent compte de l’hétérogénéité des sites et aussi de l’interaction qui peut exister entre les variables qui définissent cette hétérogénéité. Dans ce travail, nous avons traité le cas où les variables qui caractérisent l’hétérogénéité des sites sont binaires et elles sont au plus au nombre de deux. Ainsi, deux outils ont été mis en place à savoir l’algorithme basé sur la régression logistique avec interaction entre les deux variables sites et celui sans interaction entre les variables sites. À partir d’une étude de simulation sur 10 000 matrices de présence-absence, nous avons pu, non seulement décrire les propriétés des algorithmes mis en place, mais aussi comparer ces derniers avec d’autres algorithmes de simulation de matrices nulles. Ces comparaisons ont permis de constater que les tests scores avec les algorithmes basés sur la régression logistique avec ou sans interaction entre les variables sites donnent des résultats acceptables peu importe l’impact des variables sites. En revanche, l’algorithme ’fixed-fixed’, lorsque les variables sites ont des effets alternés, devient vulnérable aux erreurs de type I. Avec l’algorithme basé sur le modèle d’indépendance, les résultats obtenus ne sont pas fiables parce que le test est très vulnérable aux erreurs de type I. Pour l’algorithme de Peres-Neto, le test de score est très conservateur mais celui-ci s’améliore avec les variables sites à effets alternés. Pour finir, ces différents algorithmes ont été utilisés pour simuler des matrices nulles à partir d’un jeu de données réelles. Cela nous a permis de comparer la structure des matrices simulées par les différents algorithmes par rapport à celle de la matrice observée.

(4)

Abstract

This document proposes tools of simulation of null matrices based on the conditional law of a presence-absence matrix knowing its sufficient statistics. These tools are based on logistic regression and, moreover, they take into account the heterogeneity of the sites and also the in-teraction that can exist between the variables that define this heterogeneity. In this work, we have treated the case where the variables that characterize the heterogeneity of the sites are binary and there are more than two. Thus, two tools have been put in place, namely the logis-tic regression algorithm with interaction between the two site variables and the one without interaction between the site variables. From a simulation study on 10 000 presence-absence matrices, we were able not only to describe the properties of the implemented algorithms, but also to compare these algorithms with other null matrix simulation algorithms. These comparisons showed that the score tests with the logistic regression based algorithms with or without interaction between the site variables give acceptable results regardless of the impact of the site variables. On the other hand, the ’fixed-fixed’ algorithm, when the site variables have alternate effects, becomes vulnerable to type I errors. With the algorithm based on the independence model, the results obtained are not reliable because the test is very vulnerable to type I errors. For the Peres-Neto algorithm, the score test is very conservative but it improves with the alternate effect site variables. Finally, these different algorithms were used to simulate null matrices from a real dataset. This enabled us to compare the structure of the matrices simulated by the different algorithms with respect to that of the observed matrix.

(5)

Table des matières

Résumé ii

Abstract iii

Table des matières iv

Liste des tableaux vi

Liste des figures viii

Remerciements x

Introduction 1

1 Modèle d’indépendance 4

1.1 Structure des données . . . 4 1.2 Modèle pour µω selon la structure de regroupement. . . 5 1.3 Tests d’ajustement du modèle d’indépendance . . . 6

2 Analyse de l’hétérogénéité 15

2.1 Hétérogénéité observée à partir d’une seule variable. . . 15 2.2 Hétérogénéité observée à partir de deux variables . . . 17

3 Description des procédures de simulation des matrices nulles 24

3.1 Simulation avec le modèle d’indépendance . . . 24 3.2 Simulation par la méthode fixed-fixed . . . 25 3.3 Simulation par la méthode de Peres-Neto . . . 26

4 Analyse comparative des résultats de simulations 27

4.1 Description du test . . . 27 4.2 Étude de simulation . . . 28 4.3 Application sur des données réelles . . . 43

Conclusion 49

A Suite de l’exemple 2.2.1 50

B Programme R 54

(6)

(7)

Liste des tableaux

1.1 Exemple de données de présence-absence. . . 5 1.2 Tableau de contingence 2 × 2 pour une matrice avec deux espèces. . . 13 2.1 Données de présence-absence avec une hétérogénéité observée à partir de la

variable ’Type de sites’. . . 16 2.2 Données de présence-absence avec deux variables sites . . . 17 2.3 Nombre de sites selon les variables (τ1,τ2) . . . 21 2.4 Nombre de présences et absences de l’espèce 1 sur les sites selon la variable τ1 . 22 2.5 Nombre de présences et absences de l’espèce 1 sur les sites selon la variable τ₂ . 22 2.6 Nombre de présences et absences dans les différentes sous-matrices pour l’espèce

1 si x_1•,(0,0) vaut 2. . . 22 2.7 Nombre de présences et absences dans les différentes sous-matrices pour l’espèce

1 si x_1•,(0,0) vaut 3. . . 23 4.1 Valeurs des paramètres β utilisés dans la formule (4.4) pour la génération des

données. . . 29 4.2 Seuil observé sur les données obtenues avec les effets positifs élevés (%) . . . . 33 4.3 Puissance des tests scores pour les modèles avec dépendance par paire d’espèces

sur les données obtenues avec les effets positifs élevés (%). . . 35 4.4 Puissance des tests scores pour les modèles avec dépendance séquentielle sur

les données obtenues avec les effets positifs élevés (%). . . 36 4.5 Seuil observé sur les données obtenues avec les effets positifs modérés (%) . . . 36 4.6 Puissance des tests scores pour les modèles avec dépendance par paire sur les

données obtenues avec les effets positifs modérés (%). . . 38 4.7 Puissance des tests scores pour les modèles avec dépendance séquentielle sur

les données obtenues avec les effets positifs modérés (%).. . . 39 4.8 Seuil observé des tests scores pour les données obtenues avec les effets alternés

(%) . . . 40 4.9 Puissance des tests scores pour les modèles avec dépendance par paire sur les

données obtenues avec les effets alternés (%). . . 42 4.10 Puissance des tests scores pour les modèles avec dépendance séquentielle sur

les données obtenues avec les effets alternés (%). . . 42 4.11 Nombre de sites selon les variables τ1 et τ2. . . 44 4.12 Régression linéaire des totaux marginaux des sites en fonction des deux

va-riables sites . . . 45 4.13 Régression logistique des présences-absences de quelques espèces en fonction

(8)

A.1 Nombre de présences et absences dans les différentes sous-matrices pour l’espèce

2 si x_2•,(0,0) vaut 2. . . 51 A.2 Nombre de présences et absences dans les différentes sous-matrices pour l’espèce

(9)

Liste des figures

3.1 Exemple de "swap" . . . 25 4.1 Matrice de présence-absence obtenue sous le modèle d’indépendance (λ = 0). . 31 4.2 Matrice de présence-absence obtenue avec la dépendance par paire d’espèces

(λ = 10). . . . 31 4.3 Matrice de présence-absence obtenue avec la dépendance par paire d’espèces

(λ = −10). . . . 31 4.4 Matrice de présence-absence obtenue avec la dépendance séquentielle (λ = 10). 32 4.5 Matrice de présence-absence obtenue avec la dépendance séquentielle (λ = −10). 32 4.6 Distribution des Cscore selon l’algorithme pour un jeu de données obtenu sous

l’hypothèse nulle avec les effets positifs élevés. . . 34 4.7 Évolution de la valeur moyenne du Cscore en fonction de λ selon le modèle de

génération des données observées avec les effets positifs élevés. . . 35 4.8 Distribution des Cscore selon l’algorithme pour un jeu de données obtenu sous

l’hypothèse nulle avec les effets positifs modérés. . . 37 4.9 Évolution de la valeur moyenne du Cscore en fonction de λ selon le modèle de

génération des données observées avec les effets positifs modérés. . . 38 4.10 Distribution des Cscore selon l’algorithme pour un jeu de données obtenu sous

l’hypothèse nulle avec les effets alternés. . . 40 4.11 Distribution des totaux sites obtenus pour trois échantillons simulés avec λ = 0

selon le type de paramètres β utilisé. . . . 41 4.12 Évolution de la valeur moyenne du Cscore en fonction de λ selon le modèle de

génération des données avec les effets alternés. . . 41 4.13 Position géographique des sites de l’étude . . . 43 4.14 Visulisation de la matrice de présence-absence. . . 44 4.15 Distribution des ’Cscore’ obtenus avec les matrices nulles selon l’algorithme de

simulation. . . 48 C.1 Matrice de présence-absence obtenue sous le modèle d’indépendance (λ = 0). . 72 C.2 Matrice de présence-absence obtenue avec la dépendance par paire d’espèces

(λ = 10). . . . 72 C.3 Matrice de présence-absence obtenue avec la dépendance par paire d’espèces

(λ = −10). . . . 72 C.4 Matrice de présence-absence obtenue avec la dépendance séquentielle (λ = 10). 73 C.5 Matrice de présence-absence obtenue avec la dépendance séquentielle (λ = −10). 73

(10)

« Vous ne pouvez pas accomplir des changements fondamentaux sans une certaine dose de folie. Dans ce cas précis, cela vient de l’anticonformisme, du courage de tourner le dos aux vieilles

formules, du courage d’inventer le futur. Il a fallu les fous d’hier pour que nous soyons capables d’agir avec une extrême clarté aujourd’hui. Je veux être un de ces fous. Nous devons inventer le futur. »

(11)

Remerciements

Mes premiers remerciements vont à l’endroit de mon directeur de recherche, Louis-Paul Rivest. Je me réjouis d’avoir fait ma maîtrise sous votre direction. La réalisation de ce travail aurait pu être difficile sans un soutien constant de votre part. Ton encadrement a permis de faire avancer ma recherche par le biais de nos rencontres hebdomadaires au cours desquelles les échanges ont été très fructueux. Je vous remercie pour votre disponibilité et le suivi ponctuel à mon égard.

Mes remerciements vont également à l’endroit de tout le personnel et étudiants du départe-ment de mathématiques et statistique. Je remercie particulièredéparte-ment Sophie Baillargeon pour l’appui précieux de sa part dans mes programmes de simulation. Je témoigne aussi ma re-connaissance à tous mes camarades étudiants du département, particulièrement ceux venant de l’ENSAE de Dakar, votre accompagnement depuis mon premier jour au Canada m’a été d’une grande utilité.

(12)

Introduction

L’étude de la relation espèce-milieu constitue aujourd’hui un axe majeur de la recherche en écologie. Plus particulièrement, la problématique d’identification des structures de regroupe-ment non aléatoire dans la distribution des espèces au niveau des communautés écologiques a fait l’objet de beaucoup d’attention. Cela a permis la mise en place d’outils statistiques pour l’identification de modèles structurels sur des données d’inventaire d’espèces dans diffé-rents milieux écologiques (Gotelli et Graves, 1996)[14]. Ces données sont sous format matriciel où les lignes correspondent aux espèces et les colonnes aux sites. Une cellule de la matrice, qui correspond à l’intersection d’une ligne et d’une colonne, prend la valeur 1 si l’espèce qui correspond à la ligne est présente sur le site identifié par la colonne et 0 sinon.

L’analyse de ces matrices de données peut révéler une structure non aléatoire dans la distribution des espèces au sein des milieux écologiques. En effet, l’abondance des espèces dans les communautés écologiques est très souvent tributaire de la manière dont les espèces interagissent avec l’environnement mais aussi de la manière dont ces dernières interagissent avec les autres espèces. Par conséquent, il peut exister une association positive ou négative entre espèces ou bien entre espèce et site écologique. Plusieurs statistiques sont utilisées pour quantifier ces interactions dans une matrice de présence-absence, notamment le Cscore de Stone et Robert (1990) noté Cscore et la température de Atmar et Patterson (1986 et 1995) notée T (Ewane Ebouele, 2017) [10]. La détection d’interactions avec ces statistiques nécessite le plus souvent une procédure Monte Carlo, permettant de générer des versions randomisées de la matrice d’origine, appelée l’approche par le modèle nul.

L’analyse des données de présence-absence par le modèle nul reste l’une des méthodes les plus populaires pour caractériser l’association entre espèces (Gotelli, 2000 [13], Gotelli et Ulrich, 2012 [31]). Il s’agit d’une approche qui consiste à quantifier une structure de regrou-pement avec une métrique appropriée sur la matrice observée, puis à comparer la mesure observée à celles obtenues sur les matrices randomisées (matrices nulles) de la matrice d’ori-gine (Gotelli et Ulrich, 2010) [15]. En suivant Kallio (2016) [19], l’utilisation du modèle nul pour des tests statistiques sur les données de présence-absence peut se résumer en cinq grandes étapes :

(13)

• Définir d’abord une métrique qui décrit la struture de regroupement dans la matrice ; • Mesurer cette statistique sur la matrice de données observée ;

• Simuler une matrice aléatoire avec le modèle nul à partir de la matrice observée et y mesurer la statistique ;

• Répéter l’étape précédente plusieurs fois ;

• Comparer la statistique d’origine à la distribution des statistiques simulées pour calculer le seuil observé du test d’absence d’association.

Toutefois, cette approche par le modèle nul est une source majeure de controverse (Gotelli, 2000)[13] dont l’origine vient du choix de la méthode pour générer les matrices nulles. En effet, plusieurs algorithmes sont utilisés pour générer une matrice nulle et en suivant Strona et al. (2018) [27], la principale différence entre ces méthodes réside dans la manière dont ils traitent les totaux marginaux de la matrice de données. Parmi ces algorithmes, nous pouvons mentionner l’approche fixed-fixed qui contraint les totaux marginaux des lignes et des colonnes, et l’approche fixed-équiprobable qui contraint uniquement les totaux marginaux des lignes. L’utilisation de ces différents algorithmes sur une même matrice peut parfois mener à des résultats contrastés (Gotelli et Ulrich, 2012 ) [31]. Par conséquent, il demeure important de bien comprendre les hypothèses associées à chacun de ces algorithmes.

Ce mémoire propose plusieurs outils pour générer des matrices nulles qui s’appuient sur des méthodes d’inférence exacte : les matrices sont simulées selon la loi conditionnelle de la matrice de données sachant les statistiques exhaustives d’un modèle caractérisant l’association entre espèces. L’apport des outils proposés réside dans le fait qu’ils prennent en compte l’hétérogénéité observée entre les sites écologiques. En effet, le niveau de peuplement des sites écologiques peut dépendre de leurs caractéristiques, ce qui fait que des espèces pourraient avoir tendance à être beaucoup plus présentes dans certains sites que d’autres. L’objectif de ce mémoire est d’abord de mettre en place ces outils d’inférence exacte puis de les comparer à certains outils classiques sur la base de tests statistiques effectués avec des simulations Monte Carlo. L’objectif final de ces tests est d’identifier l’algorithme de modèle nul à partir duquel on peut obtenir des résultats qui décrivent mieux les données observées.

Le document va débuter d’abord par une présentation de la structure des données de travail et des modèles qui les décrivent selon la structure de regroupement. Ensuite, nous présentons des tests d’ajustement du modèle d’indépendance ainsi que le modèle d’inférence exacte pour ce dernier. Dans le chapitre 2, nous effectuons une analyse avec hétérogénéité au sein des sites en identifiant des variables site. Deux cas sont étudiés notamment le modèle qui prend en compte l’interaction entre les variables site et celui qui ne tient pas en compte cette interaction. Le chapitre 3 présente les procédures de simulation des matrices et enfin

(14)

dans le chapitre 4 nous présentons les résultats de l’analyse comparative effectuée à l’aide de simulations Monte Carlo.

(15)

Chapitre 1

Modèle d’indépendance

Ce chapitre présente, dans un premier temps, les types de données sur lesquelles portent notre recherche et, dans un deuxième temps, les différents outils statistiques associés au modèle d’indépendance.

1.1 Structure des données

On s’intéresse à une matrice de données N × M où les N lignes correspondent à N espèces et les M colonnes à M sites. Les notations suivantes sont celles qui seront utilisées dans la suite du document :

• Notons par X la matrice de données de présence-absence avec N lignes et M colonnes ; • {xi•,i = 1,...,N } et {x•j,j = 1,...,M } sont respectivement les totaux des lignes et

colonnes ;

• xij qui vaut 0 ou 1 permet d’indiquer si l’espèce i est présente sur le site j ;

• ω appelé historique de présence absence est une caractéristique de site. C’est un vecteur de longueur N dont les composantes sont 0 ou 1. La ième composante vaut 1 si l’espèce i est présente sur le site et 0 sinon ;

• nω est le nombre de sites avec un historique égal à ω.

Le tableau 1.1 ci-dessous est un exemple de jeu de données de présence-absence avec N = 4 espèces et M = 5 sites. Le site S2 est celui le plus peuplé, en effet, 75% des espèces sont présentes tandis que sur le site S4 une seule espèce est présente. L’espèce E3 est la moins pré-sente sur l’ensemble des sites. Les historiques de présence-absence dans la matrice de données sont ω1 = (0,0,0,1), ω2 = (1,1,0,0), ω3= (1,0,0,1), et ω4= (0,1,1,1). Ces différents historiques

(16)

La relation entre la matrice de données et l’ensemble des historiques de présence-absence qui la constituent est surjective. En effet, à partir d’une matrice X, il est possible de former l’ensemble des historiques de présence-absence et leurs fréquences mais la réciproque n’est pas valide. Une simple permutation des colonnes de la matrice de données change celle-ci mais l’ensemble des historiques de présence-absence reste le même que celui de la matrice de départ. En permutant les colonnes du tableau 1.1, on voit que l’on peut obtenir 5!_2! = 60 matrices différentes dont les effectifs des historiques n_ω₁,...,nω4 sont les mêmes que ceux calculés pour

le tableau 1.1. Espèces Sites S1 S2 S3 S4 S5 xi• E1 1 0 1 0 1 3 E2 0 1 0 0 1 2 E3 0 1 0 0 0 1 E4 1 1 1 1 0 4 x•j 2 3 2 1 2 10

Table 1.1 – Exemple de données de présence-absence

Ces types de données peuvent également être présentées sous la forme d’un tableau de fré-quences. Un jeu de données avec N espèces et M sites peut se présenter sous la forme d’un tableau de fréquences de dimension 2N. Dans ce tableau, l’effectif de la cellule ω est donné par n_ω.

1.2 Modèle pour µω

selon la structure de regroupement

Pour un jeu de données avec N espèces, on a 2N historiques possibles et chaque historique est caractérisé par sa fréquence nω. Dans le cadre de cette étude, on part de l’hypothèse que nω suit une loi de Poisson de paramètre µω (Yauck et al., 2019) [33]

nω v P oisson(µω). (1.1)

La spécification du modèle pour µω n’est pas toujours explicite, en effet elle dépend de la structure de regroupement des espèces sur les sites. Suivant les auteurs Rivest et Daigle (2004) [23], qui traitent des tableaux de fréquences 2N, le paramètre µ_ω peut être spécifié à l’aide d’un modèle log-linéaire. Toutefois, l’expression dudit modèle dépend de la structure de regroupement des données. En effet, la répartition des espèces dans les sites peut être aléatoire et dans ce cas on parle d’une structure d’indépendance. Mais aussi, cette répartition peut se faire selon une structure de regroupement bien particulière (association positive entre certaines espèces, association négative entre certaines espèces, etc.). Ewane Ebouele (2017) [10] distinguent deux structures de regroupement : la cooccurrence et le nestedness. Différentes statistiques ont été mises en place afin de détecter la structure de regroupement pour des

(17)

données de présence-absence. Mentionnons le Cscore de Stone et Robert (1990) noté Cscore, la température de Atmar et Patterson (1986 et 1995) notée T , etc, qui sont des statistiques utilisées pour détecter ces structures de regroupement.

1.2.1 Modèle d’indépendance

L’hypothèse qui sous-tend le modèle d’indépendance est qu’il n’y a aucune association aux niveaux des espèces. La présence des unes sur les sites ne dépend pas de la présence ou de l’absence des autres. Dans ce cas, le paramètre µ_ω peut être exprimé sous la forme suivante :

log µω = β0+

N

X

i=1

βiωi, (1.2)

où ω_i est égal à 1 si l’espèce i est présente sur le site et 0 sinon, et les β_i (i = 0,1,...,N ) sont les paramètres à estimer.

1.2.2 Modèles de regroupement

Lorsque les données sont décrites par une structure de regroupement différente de celle d’in-dépendance, alors la formule utilisée pour µω fait intervenir une structure d’interaction, voir l’équation (1.3). Différentes statistiques sont utilisées pour détecter la structure de regroupe-ment (voir Ewane Ebouele, 2017 [10]). Ici, nous allons noter par Z une structure d’interaction qui est une fonction des ωi, par exemple Z = ω1× ω2. On obtient alors :

log µ_ω = β₀+ N

X

i=1

βiωi+ λ × Z, (1.3)

où λ est un nombre réel.

La problématique qui se pose est le choix entre (1.2) et (1.3), du modèle qui s’ajuste bien aux données. L’objectif de la section suivante est de présenter la théorie qui sous-tend certains tests statistiques applicables à la sélection d’un bon modèle pour les données.

1.3 Tests d’ajustement du modèle d’indépendance

On veut tester les hypothèses suivantes :

( H0: M odèle d0indépendance H1: P as d0indépendance ⇔ ( H0 : log µω = β0+Piβiωi H1 : log µω = β0+Piβiωi+ λ × Z.

Effectuer ce test revient à tester l’hypothèse λ = 0. Autrement dit, cela revient à effectuer le test ci-dessous :

(

H0 : λ = 0

H1 : λ 6= 0.

(18)

Pour faire ce test, il est utile de spécifier la fonction de vraisemblance. Cette fonction de vraisemblance est définie par :

L(β,λ) =Y ω

exp(−µω) × µnωω nω! , où µ_ω est donné par (1.3).

Proposition 1.3.1. Sous l’hypothèse nulle (λ = 0), les estimateurs du maximum de vrai-semblance des paramètres βi sont donnés par :

ˆ βk= log xk• M − xk• avec k 6= 0 et (1.5) ˆ β0 = (N − 1) log M + N X i=1 log(M − xi•). (1.6)

Preuve. La log-vraisemblance sous l’hypothèse nulle (λ = 0) est donnée par la formule

ci-dessous : log L(β) = M β0+Piβixi•− P ωeβ0+ P iβiωi−P ωlog(nω!).

En posant la fonction score pour β0 = 0 on obtient :

∂ log L(β) ∂β0 = M − P ωeβ0+ P iβiωi = 0 =⇒ ˆβ₀= log_P M ωexp( P iβiωi) = log_QN M i=1(1+eβi)

.

Pour estimer les paramètres βk (avec k 6= 0), on remplace dans la log-vraisemblance β0 par

ˆ

β0. Ce qui nous permet d’avoir :

log L(β) = M log_QN M i=1(1+eβi)

+P

iβixi•−QN M i=1(1+eβi)

QN i=1(1 + eβi) − P ωlog(nω!) log L(β) = M log M − MPN i=1log(1 + eβi) + P iβixi•− M − P ωlog(nω!).

(19)

∂ log L(β) ∂βk = M eβk 1 + eβk + xk• = 0 ⇒ eβk 1 + eβk = logit(βk) = xk• M ˆ βk = log xk• M − xk• avec k 6= 0. (1.7)

En remplacant ˆβi dans la formule de ˆβ0, on obtient :

ˆ β0 = (N − 1) log M + N X i=1 log(M − x_i•). (1.8)

1.3.1 Test de rapport de vraisemblance

Le test de rapport de vraisemblance est un des outils qui permet de comparer l’adéquation ou l’ajustement de deux modèles dans le but de choisir celui qui s’ajuste le mieux aux données échantillonnales. Dans ce cas présent, nous voulons tester l’hypothèse donnée en (1.4). La statistique du test est la quantité µ appelée statistique du rapport de vraisemblance (Carbon, 2018) [6]. Cette quantité est définie de la manière suivante :

µ = supH0L(β,λ)

supH1L(β,λ)

. (1.9)

L’hypothèse H0 est rejetée si le rapport du maximum de vraisemblance (µ) est assez petit.

En effet, la région critique du test est donnée par : W = −2 log(µ) ≥ a, où a est le fractile d’ordre 1 − α de la loi χ2_p, avec p = 1 si λ est unidimensionnel.

1.3.2 Test de score

Également appelé test du multiplicateur de Lagrange, le test de score est une des méthodes pour tester des hypothèses sur des paramètres dans le cadre de la vraisemblance. Ce test utilise la log-vraisemblance, son avantage par rapport aux autres tests (test du rapport de vraisemblance) est que seule l’estimation des paramètres sous l’hypothèse nulle est nécessaire. Si l’on considère le test pour l’hypothèse (1.4), la vraisemblance peut se définir par L(β,λ). Ainsi, en se référant à Casella et Berger (2002) [7], la statistique de score est donnée par :

s(λ) = ∂ log L(β,λ)

∂λ . (1.10)

Sous l’hypothèse nulle, E_λ[s(λ)] = 0 et var_λ[s(λ)] = I_n(λ) (Casella et Berger, 2002) [7], où In(λ) est l’information de Fisher. La statistique du test peut être spécifiée comme suit :

ZS = _ps(λ0) In(λ0)

, (1.11)

où λ₀ est la valeur du paramètre sous l’hypothèse nulle. Si H₀ est vraie, alors la statistique ci-dessus converge vers la loi N (0,1). L’hypothèse nulle du test pour (1.4) est rejetée si |ZS| >

(20)

z₁₋α 2.

Cette hypothèse de normalité de la statistique découle d’une approximation asymptotique qui permet de déterminer la région de rejet en fonction des quantiles de la loi normale. Dans le cadre de cette étude, à la place de l’approche asymptotique, nous allons utiliser l’approche exacte basée sur des simulations Monte Carlo permettant d’obtenir la distribution exacte de la statistique.

Exemple de calcul de la fonction de score Considérons le cas où nωv P oisson(µω) avec :

log µ_ω = β₀+X i

βiωi+ λ × ω1ω2.

La vraisemblance est donnée par :

L(β,λ) =Y ω

exp(−µω) × µnωω nω!

.

Ce qui nous permet d’obtenir la log-vraisemblance ci-dessous : log L(β,λ) =X ω (nωlog µω− µω− log nω!) =X ω nωβ0+ X ω nωX i βiωi+X ω nωλω1ω2− X ω eβ0+Piβiωi+λ×ω1ω2 −X ω log(nω!) = M β0+ X i βixi•+ λn_{(1,1,0,...,0)}−X ω eβ0+Piβiωi+λ×ω1ω2 −X ω log(nω!). Ainsi, la fonction de score est donnée par la formule ci-dessous :

s(λ) = ∂ log L(β,λ) ∂λ = n(1,1,0,...,0)− X ω ω1ω2eβ0+ P iβiωi+λ×ω1ω2 s(λ0) = s(0) = n(1,1,0,...,0)− X ω ω1ω2eβ0+ P iβiωi.

1.3.3 Inférence exacte pour le modèle d’indépendance

L’approche par inférence exacte est faite à partir de simulations Monte Carlo basées sur la distribution des historiques ω conditionnellement aux statistiques exhaustives xi•(les totaux par espèce) et M (le nombre total de sites). Pour cela, il est important de définir la loi conditionnelle utilisée pour ces simulations. Autrement dit, il importe de spécifier l’expression de la probabilité P T

ωnω| {xi•}_{(i=1,...,N )},M

. Nous étions partis de l’hypothèse que les effectifs des historiques suivent une loi de Poisson. Ainsi, la loi conjointe des n_ω pourrait être définie comme suit :

P \ ω nω ! =Y ω µnω ω e−µω nω! . (1.12)

Proposition 1.3.2. Les trois énoncés ci-dessous sont valables pour le modèle d’indépendance défini par l’équation (1.2).

(21)

1. La loi des n_ω conditionnellement au nombre de sites M est une loi multinomiale mul-tivariée de paramètres M et p_i= eβi

1+eβi : P \ ω nω|M ! = _QM ! ωnω! × N Y i=1 pxi• i (1 − pi)M −xi•.

2. Les xi•sachant le nombre de sites M sont des variables aléatoires indépendantes suivant des lois binomiales de paramètres M et pi = _1+eeβi_βi :

P N \ i=1 xi•|M ! = N Y i=1 M xi• ! pxi• i (1 − pi) M −xi•_.

3. La loi conditionnelle des nω sachant M et les xi•{i=1,...,N } est définie par la formule ci-dessous : P \ ω nω|{xi•}(i=1,...,N ),M ! = M ! Q ωnω! × QN i=1 M xi• .

Preuve : 1. La loi conjointe des n_ω est donnée par :

P \ ω nω ! =Y ω µωnω_e−µω nω! = Q ωµωnω Q ωnω! exp −X ω µω ! , avec ω ∈ Ω.

La loi marginale de M est :

P (M ) = X ω µω !M exp −X ω µω ! M ! . On sait que P (T ωnω T M ) = P (T ωnω T P

ωnω = M ) dans la mesure où

P

ωnω corres-pond au nombre de sites dans la matrice de données qui vaut M . Ainsi la loi conditionelle des nω sachant M est :

P \ ω nω|M ! = P \ ω nω\M ! P (M ) = P \ ω nω\ X ω nω = M ! P (M ) = Y ω µωnω Y ω nω! exp −X ω µω ! × M ! X ω µω !M exp −X ω µω !.

(22)

Dans l’expression précédente on note que : Y ω µnω ω = exp X ω nωlog µω ! = exp X ω nωβ0+ N X i βi X ω nωωi ! = exp M β0+ N X i βixi• ! = eβ0M N Y i=1 eβixi• _et _(1.13) X ω µω !M = X ω exp β0+ X i βiωi !!M = eβ0M N Y i=1 1 + eβiM_. _(1.14)

En utilisant ces deux résultats, on obtient :

P \ ω nω|M ! = e β0MQN i=1eβi xi• Q ωnω! e−Pωµω× M ! eβ0MQN i=1(1 + eβi)Me −P ωµω = QN i=1eβi xi• Q ωnω! × M ! QN i=1(1 + eβi)M = _QM ! ωnω! × N Y i=1 eβi 1 + eβi !xi• 1 1 + eβi M −xi• = _QM ! ωnω! × N Y i=1 pxi• i (1 − pi) M −xi•_. Ainsi, P \ ω nω|M ! = _QM ! ωnω! × N Y i=1 1 M xi• !× N Y i=1 M xi• ! pxi• i (1 − pi) M −xi•_.

2. De cette loi conditionnelle, nous déduisons la loi des PTN

i=1xi•|M . P N \ i=1 xi•|M ! = X nω:Pωinω=xi• P \ ω nω|M ! = X nω:Pωinω=xi• M ! Q ωnω! × N Y i=1 1 M xi• × N Y i=1 M xi• ! pxi• i (1 − pi)M −xi• = N Y i=1 M xi• ! pxi• i (1 − pi) M −xi•_× X nω:Pωinω=xi• M ! Q ωnω! N Y i=1 1 M xi•

(23)

En se réferant à Darroch (1958) [9], on a : X nω:Pωinω=xi• M ! Q ωnω! N Y i=1 1 M xi• = 1. On en conclut que : P N \ i=1 xi•|M ! = N Y i=1 M xi• ! pxi• i (1 − pi)M −xi•.

Les {x_i•}_{(i=1,...,N )} conditionnées à M sont des variables aléatoires indépendantes qui suivent des lois binomiales de paramètres M et pi.

3. Pour démontrer la troisième partie de la proposition, considérons :

P \ ω nω|{xi•}(i=1,...,N ),M ! = P T ωnω TN i=1xi• T M PTN i=1xi• T M = P T ωnω TN i=1xi• T M PTN i=1xi•|M × P (M ) =Y ω µnω ω e−µω nω! × M ! (P ωµω)Me −P ωµω × 1 QN i=1 xMi• pxi• i (1 − pi)M −xi• = e−PωµωY ω µnω ω nω! × M ! (P ωµω)Me− P ωµω × 1 QN i=1 xMi• pxi• i (1 − pi)M −xi• = Q ωµnωω Q ωnω! × M ! (P ωµω)M × 1 QN i=1 M xi• pxi• i (1 − pi)M −xi• .

En utilisant les résultats (1.13) et (1.14), il vient :

P \ ω nω|{xi•}(i=1,...,N ),M ! = e β0MQN i=1eβi xi• Q ωnω! × M ! eβ0MQN i=1(1 + eβi)M × 1 QN i=1 M xi• pxi• i (1 − pi)M −xi• = QN i=1eβi xi• Q ωnω! × M ! QN i=1(1 + eβi)M × 1 QN i=1 M xi• pxi• i (1 − pi)M −xi• = QN i=1 e βi xi• (1+eβi)xi•

Q ωnω! × M ! QN i=1(1 + eβi)M −xi• × 1 QN i=1 xMi• pxi• i (1 − pi)M −xi• .

Or pi = _(1+eeβi_βi₎ et 1 − pi = _(1+e1_βi₎, donc on a :

P \ ω nω|{xi•}(i=1,...,N ),M ! = QN i=1p xi• i (1 − pi)M −xi• Q ωnω! × M ! QN i=1 xMi• pxi• i (1 − pi)M −xi• . Ainsi, P \ ω nω|{xi•}(i=1,...,N ),M ! = M ! Q ωnω! ×QNi=1 xMi• . (1.15)

Interprétation de la loi conditionnelle

La loi conditionnelle énoncée au niveau de l’équation (1.15) pourrait être décomposée en deux termes dont chacun a une définition explicite. Le terme _QN 1

i=1( M xi•)

(24)

au tirage ligne par ligne. En effet, en considérant une matrice de données de présence-absence, la probabilité associée au tirage d’une ligne dont le total est x_i• dans un plan de sondage aléatoire simple est de 1

(M xi•)

. Ainsi, pour une matrice avec N espèces, la probabilité d’un tirage indépendant de l’ensemble des lignes est égale au produit des probabilités de tirage ligne par ligne, d’où l’expression _QN 1

i=1( M xi•) . Quant au terme QM ! ωnω!

, il dénombre le nombre de matrices à M colonnes avec des totaux lignes de {xi•}(i=1,...,N ) et dont les historiques possibles sont identifiés par leurs effectifs nω. En effet, pour une matrice avec M colonnes, le nombre de permutations possibles pour les colonnes si elles sont toutes différentes est de M !. Le terme au dénominateurQ

ωnω! permet de prendre en compte les répétitions de certaines colonnes. Autrement dit, si nωest le nombre de fois que l’historique ω est présent dans la matrice, alors le nombre de permutations possibles des colonnes de la matrice est de QM !

ωnω!

.

Ainsi, la loi conditionnelle des n_ω sachant les statistiques exhaustives {x_i•}_{(i=1,...,N )} et M est composée d’une partie associée au sondage aléatoire simple et d’une partie additionnelle qui dénombre le nombre de matrices que l’on peut former à partir de la matrice observée. Exemple 1.3.1. Exemple d’un tableau de contingence 2×2

Dans le cas où notre échantillon est constitué de deux espèces et M sites (voir table1.2), alors la loi (1.15) ne sera rien d’autre qu’une loi hypergéométrique (Agresti, 1992 [2] ; Agresti, 1990 [1]).

En effet, si l’échantillon est constitué de deux espèces alors les valeurs possibles pour i sont 1 et 2 et celles possibles pour n_ω sont n_(0,0),n(0,1),n(1,0), et n(1,1).

Espece1

Espèce2

P résente Absente T otal

P résente n(1,1)= n11 n(1,0) = n10 x1•

Absente n(0,1)= n01 n(0,0) = n00 M − x1•

T otal x2• M − x2• M

Table 1.2 – Tableau de contingence 2 × 2 pour une matrice avec deux espèces. La matrice de données de présence-absence pour le cas de deux espèces peut être présentée sous la forme d’un tableau de contingence 2 × 2.

(25)

Ainsi, en adaptant la loi (1.15) au cas de deux espèces, on obtient : P \ ω nω|x1•,x2•,M ! = M ! n00!n01!n10!n11! × _xM₁_•× _xM₂_• = x2•!(M − x2•)! n00!n01!n10!n11!M ! × _xM₁_• = x2• n11 × M −x2• n10 M x1• = x2• n11 × M −x2• x1•−n11 M x1• . (1.16)

La loi définie par l’équation (1.16) est une loi hypergéométrique de paramètres M,x2•, et x1•.

Autrement dit, dans une matrice de données de présence-absence avec deux espèces, la loi des nω conditionnée sur les statistiques exhaustives xi• (totaux lignes) et M (nombre de sites) est une loi hypergéométrique de paramètres M , x2•, et x1•.

(26)

Chapitre 2

Analyse de l’hétérogénéité

L’hétérogénéité des sites intervient lorsqu’il est plus probable de trouver les espèces sur cer-tains sites que d’autres. Les données traitées dans le cadre de cette étude peuvent, dans une certaine mesure, être hétérogènes. Cette hétérogénéité peut être observée à partir d’une ou plusieurs variables, mais aussi elle peut être non observée, c’est-à-dire définie par une variable latente.

Cette section s’intéresse au cas où les variables qui permettent de définir l’hétérogénéité des sites sont catégoriques. Ainsi, lorsqu’un jeu de données présente une hétérogénéité au niveau des sites, alors la matrice de données de présence-absence est subdivisée en différentes sous-matrices dépendamment des types de sites. Nous allons faire, dans les sections qui suivent, une présentation des différents cas qui peuvent se présenter.

2.1 Hétérogénéité observée à partir d’une seule variable

La nature de chaque site peut avoir un effet sur les espèces présentes sur celui-ci. Nous utilisons dans cette section l’exemple d’une matrice de données pour laquelle le type de sites (naturels ou aménagés) définit la variable d’hétérogénéité, ce qui fait qu’en intégrant le type de site dans l’analyse, l’hypothèse de départ selon laquelle les effectifs des historiques suivent une loi de Poisson reste valable mais, cette fois-ci, elle dépend du type de site.

La prise en compte de l’hétérogénéité des sites se traduit par une subdivision de la matrice de données en différentes sous-matrices de données selon les modalités de la variable site. Nous allons utiliser dans la suite du document l’indice τ pour identifier la modalité de la variable site. Nous traitons ici le cas où la variable site est binaire, donc τ vaut 0 ou 1. Ainsi, les résultats du modèle d’indépendance obtenus précédemment restent valables dans ce cas de figure mais sur chaque sous-matrice. Autrement dit, sur une sous-matrice donnée identifiée par l’indice τ , les historiques de présence-absence nω,τ sont des variables Poisson de paramètre µω,τ.

(27)

Sites S1 S2 S3 S4 S5 S6 xi• Type de sites τ 0 0 0 1 1 1 Espèces E1 1 1 1 0 0 1 4 E2 0 0 1 0 0 0 1 E3 1 1 1 0 0 0 3 E4 0 1 1 1 1 0 4 x•j 2 3 4 1 1 1 12

Table 2.1 – Données de présence-absence avec une hétérogénéité observée à partir de la variable ’Type de sites’

Comme dans le modèle d’indépendance, les paramètres µω,τ sont aussi spécifiés avec un modèle log-linéaire défini comme suit :

log µω,τ = β0+ γ0τ + N X i=1 βiωi+ N X i=1 γiωiτ. (2.1)

2.1.1 Estimation des paramètres du modèle d’indépendance conditionnelle

La variable τ divise les sites en deux catégories (τ = 0 et τ = 1), autrement dit en deux sous-matrices. Chaque sous-matrice définie par la modalité de la variable site est composée de Mτ sites et l’on note par xi•,τ les totaux marginaux lignes de la sous-matrice des sites de type τ . L’estimation des paramètres du modèle de µ_ω,τ est faite avec les données de la sous-matrice concernée.

Les estimateurs des paramètres de ces modèles sont obtenus de manière analogue à l’estimation faite pour les données sans hétérogénéité. Les formules des estimateurs obtenus sont ainsi identiques, la seule différence réside au niveau des données utilisées :

ˆ βk,τ = ˆβk+ ˆγkτ = log xk•,τ Mτ − xk•,τ avec k 6= 0 et (2.2) ˆ β0,τ = ˆβ0+ ˆγ0τ = (N − 1) log Mτ+ N X i=1 log(Mτ− xi•,τ). (2.3)

2.1.2 Loi conditionnelle pour inférence exacte

Dans le cas des données caractérisées par une hétérogénéité au niveau des sites, la loi sur laquelle se base l’inférence exacte est la loi des n_ω,τ conditionnée sur les totaux marginaux par sous-matrice xi•,τ et sur le nombre de sites Mτ pour les différentes sous-matrices. Cette

(28)

loi traduit le produit des lois conditionnelles sur chaque sous-matrice et elle est définie par l’équation (2.4) : P \ ω,τ nω,τ|{xi•,τ}(i=1,...,N ),Mτ ! = 1 Y τ =0 Mτ! Y ωτ nω,τ! × N Y i=1 Mτ xi•,τ !. (2.4)

La loi ci-dessus peut se décomposer en deux termes interprétables. Le termeQ1

τ =0 QN i=1 Mτ xi•,τ −1

est une probabilité de sélection d’un tirage stratifié. En effet, pour une ligne i de la matrice de données ayant xi•,τ espèces sur les Mτ sites de chaque sous-matrice, sa probabilité de sélection est de Q1

τ =0 xMi•,ττ

−1

, ce qui fait que la probabilité de sélection pour l’ensemble des lignes de la matrice est le produit des probabilités de sélection ligne par ligne.

En ce qui concerne le terme Q1

τ =0 QMτ!

ωτnω,τ!

, il dénombre le nombre de matrices avec M = Mτ =0+ Mτ =1 colonnes dont les totaux lignes des sous-matrices sont {xi•,τ, i = 1,...,N et τ = 0 ou 1} et dont les historiques sont définis par les effectifs n_ω,τ.

2.2 Hétérogénéité observée à partir de deux variables

L’hétérogénéité des sites peut être causée par plus d’une variable. Cette section présente le cas où deux variables sont impliquées. Le tableau 2.2 est un exemple de matrice de données de présence-absence avec deux variables d’hétérogénéité.

Sites S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 xi• Type de sites τ1 0 0 0 0 0 1 1 1 1 1 1 τ2 0 0 0 1 1 0 0 1 1 1 1 Espèces E1 1 1 1 1 0 1 0 1 0 0 0 6 E2 1 1 1 1 1 0 0 1 0 1 0 7 E3 1 0 1 0 0 0 1 0 1 0 1 5 E4 0 1 0 1 1 1 0 0 0 1 0 5 x•j 3 3 3 3 2 2 1 2 1 2 1 23

Table 2.2 – Données de présence-absence avec deux variables sites

Le tableau 2.2 est une matrice de données de présence absence avec deux variables sites identifiées par τ₁ et τ₂. Ainsi, les statistiques fournies par la matrice de données sont indicées par une variable τ = (τ₁,τ2) qui est un vecteur de dimension deux. Le premier élément du

vecteur va indiquer la modalité de la première variable site et le deuxième celle de la deuxième. Notre matrice est composée de 11 sites sur lesquels l’inventaire de 4 espèces est effectué. Les données ont une structure hiérarchique : les sites sont classifiés selon les variables sites ensuite les espèces sont dénombrées par type de site. Par exemple, les sites où la première

(29)

variable site vaut 1 et la deuxième vaut aussi 1 (τ = (1,1)) sont au nombre de M_(1,1)= 4 et les totaux marginaux des lignes pour les 4 espèces pour ces sites sont : x_1•,(1,1) = 1, x_2•,(1,1)= 2, x3•,(1,1) = 2, et x4•,(1,1) = 1. De plus, dans cette sous-matrice τ = (1,1), les historiques de

présence-absence (1,1,0,0), (0,0,1,0), et (0,1,0,1) sont ceux qui sont identifiés avec les effectifs respectifs suivants : n_{(1,1,0,0),(1,1)}= 1, n_{(0,0,1,0),(1,1)}= 2, et n_{(0,1,0,1),(1,1)}= 1.

La probabilité qu’une espèce i soit présente sur un site j est définie par un modèle de régression logistique. La spécification dudit modèle dépend de l’interaction entre les deux variables sites. Dans le cas où les deux variables sites interagissent, la probabilité de présence d’une espèce i sur un site j est donnée par :

P (xij = 1) =

eβi,0+τ1jβi,1+τ2jβi,2+τ1jτ2jβi,12

1 + eβi,0+τ1jβi,1+τ2jβi,2+τ1jτ2jβi,12. (2.5)

Par contre, lorsque les deux variables sites n’interagissent pas, la spécification du modèle devient :

P (xij = 1) =

eβi,0+τ1jβi,1+τ2jβi,2

1 + eβi,0+τ1jβi,1+τ2jβi,2. (2.6)

2.2.1 Modèle d’indépendance conditionnelle avec une interaction entre les deux variables sites

Comme dans la section précédente, en considérant l’hétérogénéité des sites, la matrice de don-nées initiale sera subdivisée en différentes sous-matrices. L’indice τ sera utilisé pour identifier les sous-matrices. Dans ce cas-ci, nous allons nous limiter au cas où les deux variables sont binaires, ainsi l’indice τ sera un vecteur binaire (τ1,τ2) qui identifie les différentes

combinai-sons entre les modalités des deux variables.

Sur chacune des sous-matrices, les résultats obtenus pour le modèle d’indépendance restent valables. Les historiques de présence-absence nω,τ sont des variables Poisson de paramètre µω,τ dont le modèle est spécifié ci-dessous :

log µω,τ = β0+ γ1τ1+ γ2τ2+ γ12τ1τ2+ N X i=1 βiωi+ N X i=1

ωi(τ1γi1+ τ2γi2+ τ1τ2γi12). (2.7)

Estimation des paramètres

Les résultats de l’estimation du modèle log-linéaire pour un jeu de données avec deux variables d’hétérogénéité sont similaires à ceux de la section précedente. La différence entre les deux résultats est au niveau de l’indice τ qui est bidimensionnel pour ce cas-ci. Les paramètres estimés sont définis comme suit :

ˆ

βk,τ = ˆβk+ τ1γˆk1+ τ2ˆγk2+ τ1τ2ˆγk12= log

xk•,τ Mτ− xk•,τ

(30)

ˆ β0,τ = ˆβ0+ ˆγ1τ1+ ˆγ2τ2+ ˆγ12τ1τ2= (N − 1) log Mτ+ N X i=1 log(Mτ − xi•,τ). (2.9)

Loi conditionnelle pour inférence exacte

La loi conditionnelle pour l’inférence permet d’identifier un échantillonnage stratifié comme le cas où nous avons une seule variable site. Dans le cas avec deux variables site, l’échantillonnage stratifié est plus fin dans la mesure où l’on se retrouve avec plus de strates définies par les sous-matrices. Elle est spécifiée comme suit :

P \ ω,τ nω,τ|{xi•,τ}(i=1,...,N ),Mτ ! =Y τ υ Mτ! Y ω nω,τ! × N Y i=1 Mτ xi•,τ !, (2.10) avec υ = {(0,0); (0,1); (1,0); (1,1)}.

2.2.2 Modèle d’indépendance conditionnelle sans interaction entre les deux variables sites

Dans le cas où le modèle logistique n’est pas saturé, c’est-à-dire il n’existe pas d’interaction entre les variables sites, les résultats obtenus diffèrent des précédents. Les historiques de présence-absence nω,τ sont aussi dans ce cas, des variables Poisson de paramètre µω,τ, mais la spécification du modèle pour µ_ω,τ est cette fois-ci définie par la formule (2.11) :

log µω,τ = β0+ γ1τ1+ γ2τ2+ N X i=1 βiωi+ N X i=1 ωi(τ1γi1+ τ2γi2). (2.11)

La vraisemblance sous l’hypothèse nulle est donnée par : L(β) =Y τ υ Y ω exp(−µ_ω,τ) × µnω,τ ω,τ nω,τ! , avec υ = {(0,0); (0,1); (1,0); (1,1)}.

Les statistiques exhaustives du modèle non saturé (2.6) diffèrent de celles du modèle saturé présenté à l’équation (2.5) et elles sont définies comme suit :

• Le nombre de sites par sous-matrice M_τ;

• xi••= xi•,(0,0)+ xi•,(0,1)+ xi•,(1,0)+ xi•,(1,1); • xi•1= xi•,(0,0)+ xi•,(0,1);

(31)

Pour simuler les matrices nulles selon ce modèle sachant les statistiques exhaustives, il faudra d’abord identifier les totaux marginaux des lignes par sous-matrice τ = (τ₁,τ2) pour chaque

espèce, c’est-à-dire les xi•,τ, ainsi que les Mτ− xi•,τ, c’est-à-dire pour chaque espèce et pour chaque sous-matrice le nombre de sites où celle-ci est absente. Pour ce faire, il suffit juste de simuler pour chaque espèce un total marginal d’une ligne sur une des sous-matrices et le reste se déduit directement des statistiques exhaustives. Une procédure détaillée est présentée dans l’exemple 2.2.1. Dans ce document, la valeur de départ simulée est le total x_i•,(0,0) qui est le total marginal de la ligne correspondant à l’espèce i dans la sous-matrice où les deux variables site prennent la modalité 0 (τ = (0,0)).

Loi conditionnelle pour l’inférence exacte

Proposition 2.2.1. La loi conditonnelle de l’inférence exacte est la loi définie par :

P \ ω,τ nω,τ|{xi••,xi•1,xi•2}_{(i=1,...,N )},Mτ ! =     Y τ υ Mτ! Y ωτ nω,τ!     × N Y i=1 1 P xi•,(0,0) Q τ υ xMi•,ττ (2.12) où υ = {(0,0); (0,1); (1,0); (1,1)} et P

xi•,(0,0) est la somme sur toutes les valeurs possibles de

xi•,(0,0).

Le premier terme de l’équation (2.12) (celui entre crochets) donne le nombre de matrices X que l’on peut former à partir des fréquences nω,τ, alors que le deuxième terme donne la probabilité associée à une matrice X particulière sous la loi conditionnelle sachant les statistiques exhaustives. En effet, on construit la matrice simulée X espèce par espèce. Si xi•,τ est fixé, il y a en toutQ

τ υ Mτ

xi•,τ

échantillons de présence-absence possibles pour l’espèce i. Si on laisse x_i•,(0,0) varier, il y a en tout P

xi•,(0,0)

Q

τ υ xMi•,ττ

échantillons possibles et chacun a la même probabilité de sélection sous la loi conditionnelle étant données les statistiques exhaustives.

Preuve : La loi conditionnelle des nω,τ sachant les statistiques exhaustives peut s’écrire comme suit : P \ ω,τ nω,τ|{xi••,xi•1,xi•2}_{(i=1,...,N )},Mτ ! = N Y i=1

Pxi•,(0,0)|{xi••,xi•1,xi•2}(i=1,...,N ),Mτ

× P \ ω,τ nω,τ|{xi•,τ}(i=1,...,N ),Mτ ! .

(32)

En suivant Agresti (1992) [2] :

Px_i•,(0,0)|{x_i••,xi•1,xi•2}(i=1,...,N ),Mτ

= " Y τ υ xi•,τ! × (Mτ − xi•,τ)! #−1 X xi•,(0,0) " Y τ υ xi•,τ! × (Mτ− xi•,τ)! #−1 = Y τ υ 1 Mτ xi•,τ X xi•,(0,0) Y τ υ 1 Mτ xi•,τ . (2.13)

En utilisant l’équation (2.10), on obtient :

P \

ω,τ

nω,τ|{xi••,xi•1,xi•2}(i=1,...,N ),Mτ

! =       N Y i=1 Y τ υ 1 Mτ xi•,τ X xi•,(0,0) Y τ υ 1 Mτ xi•,τ       ×        Y τ υ Mτ! Y ω nω,τ! × N Y i=1 Mτ xi•,τ !        =       N Y i=1 1 X xi•,(0,0) Y τ υ 1 Mτ xi•,τ       ×     Y τ υ Mτ! Y ω nω,τ!     =     Y τ υ Mτ! Y ωτ nω,τ!     × N Y i=1 1 X xi•,(0,0) Y τ υ 1 Mτ xi•,τ .

Exemple 2.2.1. Exemple de simulation d’une matrice nulle.

Cet exemple présente une simulation de la première ligne d’une matrice nulle à partir de celle du tableau2.2dans le cas où il n’y a pas d’interaction entre les variables site. Les simulations se font espèce par espèce. Ainsi, pour chaque espèce, un des totaux marginaux sera obtenu par simulation, ce qui permettra de retrouver tous les autres totaux. C’est après avoir obtenu les différents totaux marginaux pour les sous-matrices que l’on simule la matrice nulle. Les valeurs de Mτ (nombre de sites par sous-matrice) pour les données dans le tableau 2.2 sont présentées dans la matrice 2.3.

τ2= 0 τ2 = 1

τ1 = 0 3 2

τ1 = 1 2 4

(33)

Espèce 1 du tableau 2.2 :

Les deux matrices 2.4et 2.5présentent le nombre de présences et absences de l’espèce 1 sur les sites selon les deux variables sites.

τ1 = 0 τ1 = 1

Espèce 1 présente 4 2

Espèce 1 absente 1 4

Table 2.4 – Nombre de présences et absences de l’espèce 1 sur les sites selon la variable τ1

τ2 = 0 τ2 = 1

Espèce 1 présente 4 2

Espèce 1 absente 1 4

Table 2.5 – Nombre de présences et absences de l’espèce 1 sur les sites selon la variable τ2

À partir de la matrice de données brutes, les statistiques exhaustives suivantes sont obte-nues pour l’espèce 1 :

• x_1•,(0,0)+ x_1•,(0,1) = 4 ; • x_1•,(0,0)+ x_1•,(1,0) = 4 ;

• x_1•,(0,0)+ x_1•,(0,1)+ x_1•,(1,0)+ x_1•,(1,1) = 6.

La sous-matrice τ = (0,0) contient 3 sites (c’est-à-dire M_(0,0) = 3). Ainsi, x_1•,(0,0) pourrait prendre les valeurs {0,1,2, 3}. Par contre en tenant en compte les contraintes imposées par les valeurs des statistiques exhaustives, on se rend compte que x_1•,(0,0) ne peut prendre que les valeurs 3 et 2.

— Pour x_1•,(0,0)= 2

À partir de cette valeur de x_1•,(0,0), nous déduisons les autres totaux marginaux pour l’espèce 1 comme il est présenté dans le tableau 2.6.

τ1 0 1 0 1

τ2 0 0 1 1

x1•,τ 2 2 2 0

Mτ− x1•,τ 1 0 0 4

Table 2.6 – Nombre de présences et absences dans les différentes sous-matrices pour l’espèce 1 si x_1•,(0,0) vaut 2.

(34)

— Pour x_1•,(0,0)= 3

Pour ce cas de figure, les autres totaux marginaux pour l’espèce 1 sont présentés dans le tableau 2.7.

τ1 0 1 0 1

τ2 0 0 1 1

x1•,τ 3 1 1 1

Mτ− x1•,τ 0 1 1 3

Table 2.7 – Nombre de présences et absences dans les différentes sous-matrices pour l’espèce 1 si x_1•,(0,0) vaut 3.

Les probabilités associées aux valeurs possibles de x_1•,(0,0) sont les suivantes : P (x_1•,(0,0) = 2) = 1 2!2!2!4! 1 2!2!2!4!+ 1 3!3! = 0.16 et P (x_1•,(0,0) = 3) = 1 3!3! 1 2!2!2!4!+ 1 3!3! = 0.84 (voir l’équation 2.13).

La même procédure est appliquée pour les autres espèces de la matrice de données afin d’obtenir tous les totaux marginaux. La suite de l’exemple pour les trois autres espèces se trouve à l’annexe A.

L’algorithme ci-dessus n’est pas la seule méthode de simulations de matrices nulles qui tient compte de l’hétérogénéité des sites. En effet, il existe d’autres méthodes de simulation qui prennent en compte cet aspect. Nous pouvons mentionner l’algorithme ’fixed-fixed’ présenté dans le chapitre 3.

(35)

Chapitre 3

Description des procédures de

simulation des matrices nulles

Tel que mentionné dans l’introduction, la randomisation des matrices de données de présence-absence est un outil souvent utilisé en écologie afin de générer de nouvelles matrices aléatoires appelées matrices nulles, notamment lorsqu’il s’agit de faire des tests statistiques. Il existe cependant une controverse quant à la manière de générer ces matrices nulles et celle-ci réside dans les contraintes prises en compte dans les procédures de simulation, principalement celles sur les totaux marginaux des lignes et des colonnes.

Ce chapitre présente quelques algorithmes de simulation de ces matrices utilisées dans la pré-sente étude. L’objectif est de pouvoir comparer à la fin la puissance des méthodes d’inférence exacte présentées dans les chapitres 1 et 2 par rapport à des méthodes de simulation déjà existantes.

3.1 Simulation avec le modèle d’indépendance

L’idée qui sous-tend le modèle d’indépendance est que la présence d’une espèce sur un site ne dépend aucunement de la présence ou l’absence d’une autre espèce sur le site. Autrement dit, les espèces sont aléatoirement réparties sur les sites.

Ainsi, la simulation d’une matrice de présence-absence selon le modèle d’indépendance se fait espèce par espèce et pour chaque espèce le choix des sites sur lesquels elle est présente se fait à partir d’un tirage aléatoire simple.

Considérons par exemple que l’on souhaite simuler une matrice de présence-absence avec M sites et N espèces et pour l’espèce i, le total marginal de la ligne est x_i•. La procédure de simulation va consister à construire d’abord pour chaque espèce i un vecteur de longueur M dont les valeurs qui le composent sont nulles. Par la suite, on tire, selon un sondage aléatoire simple, x_i• sites parmi les M sites du vecteur, ce qui nous permet d’obtenir la liste des sites sur lesquels l’espèce i est présente et ainsi affecter la valeur 1 aux positions, dans le vecteur

(36)

initialement construit, qui correspondent à ces sites. En répétant la procédure pour chaque espèce et en combinant les différents vecteurs, on aboutit à une matrice de présence-absence simulée selon la loi conditionnelle de la matrice étant donné les statistiques exhaustives pour le modèle d’indépendance (voir la proposition 1.3.2).

3.2 Simulation par la méthode fixed-fixed

La méthode ’fixed-fixed’ contraint les totaux marginaux des lignes et des colonnes à être iden-tiques à ceux des totaux de la matrice de données brutes. Autrement dit, c’est une procédure de randomisation qui simule une matrice nulle à partir de données de présence-absence tout en conservant les totaux marginaux des lignes et des colonnes fixes. Elle part d’une matrice d’origine et utilise une procédure d’échange séquentiel appelée "swaping". Il s’agit d’une per-mutation de valeurs de cellules pour produire une nouvelle matrice aléatoire qui a les mêmes totaux marginaux des lignes et des colonnes.

De manière plus détaillée, la méthode consiste à faire un tirage aléatoire de deux lignes et de deux colonnes sur la matrice de données d’origine. Si les colonnes et lignes choisies ne forment pas l’une des matrices de la figure 3.1 (matrice symétrique de 0 et 1), alors on ne fait rien car il est impossible de faire le ’swap’. Et dans le cas contraire, on change les 0 en 1 et les 1 en 0 dans la sous-matrice sélectionnée. Cela va donner une nouvelle matrice aléatoire avec les mêmes totaux marginaux des lignes et des colonnes. La figure 3.1, tirée de Gionis et al, (2007) [12], est une illustration de cette étape de permutation appelée "swap".

Figure 3.1 – Exemple de "swap"

Pour simuler plusieurs matrices nulles selon l’algorithme fixed-fixed, on se définit une chaîne de Markov sur l’ensembe des matrices N × M avec xi•et x•j les totaux marginaux des lignes et

des colonnes. Une itération de la chaîne de Markov est le swap. En suivant Cobb et Chen (2003) [8], les matrices consécutives obtenues à partir de l’algorithme fixed-fixed forment une chaîne de Markov à distribution stationnaire uniforme. Toutefois, selon Kallio (2016) [19], avec peu de perturbations, les matrices aléatoires obtenues à partir de cette chaine de Markov peuvent être très similaires à celle d’origine conduisant ainsi à des tests très conservateurs. Pour contourner cela, un paramètre appelé "thin" est introduit dans l’algorithme. Ce paramètre, estimé à partir de la matrice observée, permet de définir un pas pour le choix des matrices simulées. Par exemple, si le "thin" est égal à 1000, alors c’est après 1000 itérations du swap que l’algorithme sélectionne une matrice. Ainsi, pour simuler 1000 matrices nulles il faut

(37)

observer la chaine de Markov 106_{fois et prendre une matrice à toute les 1000 itérations. C’est}

la méthode ’trial swap’ de la fonction nullmodels du package vegan de ’R’ (Oksanen et al., 2019)[20].

3.3 Simulation par la méthode de Peres-Neto

Cette procédure de simulation se base sur l’étude de Peres-Neto et al. (2001) [21]. C’est un algorithme qui part d’un modèle de régression logistique par espèce afin de choisir un échantillon de taille M parmi les sites.

On considère chaque ligne i de la matrice de présence-absence comme un vecteur aléatoire binaire dont le nombre d’observations est égal au nombre de sites (Y = y1,...,yj,...,yM). Si l’espèce est présente sur le site j, alors y_j prend la valeur 1. Cette variable est ensuite modélisée par une régression logistique dont les variables explicatives sont les variables sites. Autrement dit, on a autant de régressions logistiques qu’il y a d’espèces dans la matrice de données. À partir de chaque régression logistique, des probabilités prédites de présence des espèces sur chaque site sont calculées.

La dernière étape de la procédure de simulation consiste à choisir les sites sur lesquels les espèces sont présentes en utilisant les probabilités prédites, tout en conservant les totaux marginaux des lignes. Ceci est un problème d’échantillonnage : la sélection sans remise d’un échantillon de taille n avec des probabilités qui varient d’une unité à l’autre. Ce choix est fait au moyen d’un échantillonnage systématique (voir le chapitre 7 de Tillé (2006) [29]). En effet, pour chaque espèce de la matrice de données, les probabilités d’inclusion sont calculées en utilisant les probabilités prédites et le total marginal ligne x_i•. Après avoir obtenu les probabilités d’inclusion, la commandeUPrandomsystematic du package sampling de ’R’ (Tillé et Matei, 2016) [28], qui prend en argument les probabilités d’inclusion, est utilisée pour choisir les x_i• sites sur lesquels l’espèce est présente. Cette méthode est une alternative à la simulation des matrices nulles selon la distribution conditionnelle de la matrice brute sachant les statistiques exhaustives vues à la section 2.2.2.