• Aucun résultat trouvé

2.3 Application aux jeux de données

3.1.1 Tables en 2 dimensions

Comme décrit à la section 1.2.5, l’indépendance entre deux variables catégoriques signifie que nous pouvons écrire les probabilités conjointes comme le produit des probabilités marginales :

pij = pi+p+j, (3.1)

pour tous les couples (i, j). Cela signifie également que nous pouvons écrire les entrées dans la table comme

mij = N pij = N pi+p+j, (3.2)

où N = m++ est le nombre total d’observations.

Plutôt que de formuler l’hypothèse nulle comme nous l’avons fait à la section1.2.5, nous allons la formuler en termes de modèles log-linéaires, c’est-à-dire que nous allons récrire l’hypothèse d’indépendance en prenant le logarithme de l’équation (3.2) pour obtenir

log(mij) = log(N ) + log(pi+) + log(p+j). (3.3)

Pour alléger la notation, nous définissons

log(N ) = u, (3.4)

log(pi+) = uAi , (3.5)

log(p+j) = uBj, (3.6)

où les indices supérieurs A et B font référence aux variables aléatoires associées à la probabilité marginale. Les indices i et j font référence à la i-ème et la j-ième entrée dans ces marges. Ainsi, l’expression réduite de l’équation (3.3) devient

log(mij) = u + uAi + uBj . (3.7)

Autrement dit, uAi représente l’effet de la catégorie i de la variable A sur le logarithme des entrées de la table et uBj représente l’effet de la catégorie j de la variable B. L’hypothèse nulle correspond alors à

H0 : log(mij) = u + uAi + uBj pour tous les couples (i, j). (3.8)

Supposons maintenant que les observations dans la table soient distribuées selon une loi multi- nomiale de la forme (1.12). À priori, nous ne connaissons pas les probabilités, pij, qui définissent cette loi. En effet, nous n’avons accès qu’à des observations, notées xij, dans chacune des cases

d’une table de contingence qui correspond à une réalisation de cette loi multinomiale.

Nous ne pouvons alors qu’estimer les probabilités et les comptes espérés sous le modèle d’indé- pendance. À cette fin, nous pouvons utiliser la méthode du maximum de vraisemblance pour les paramètres d’une loi multinomiale. La vraisemblance d’une telle loi est égale à

N ! Q i,jxij! Y i,j mij N xij , (3.9)

où xij est le nombre d’observations dans la case (i, j) et mij = N pij est la valeur espérée

dans la case (i, j) sachant que la probabilité d’obtenir un succès dans la case (i, j) est pij. Le

logarithme de la vraisemblance s’écrit comme

log QN ! i,jxij! ! +X i,j xijlog(mij) − N log(N ). (3.10)

Pour maximiser l’expression, nous pouvons utiliser la méthode des multiplicateurs de Lagrange et l’ajout des contraintes de normalisation suivantes :

X i,j mij = N, (3.11) X i,j xij = N. (3.12)

L’expression totale à maximiser est donc

log QN ! i,jxij! ! +X i,j xijlog(mij) − N log(N ) + λ1  N −X ij mij  + λ2  N −X ij xij  , (3.13) où λ1 et λ2 sont les multiplicateurs de Lagrange. Dans la deuxième somme de (3.13), nous

observons le terme log(mij) que nous pouvons remplacer par l’expression (3.7). L’optimisation du logarithme de la vraisemblance par rapport aux paramètres u, uAi , uBj , λ1 et λ2permet alors

d’obtenir les équations

ˆ m++= x++, (3.14) ˆ mi+ = xi+, (3.15) ˆ m+j = x+j, (3.16)

où l’accent circonflexe indique qu’il s’agit de la valeur estimée pour les paramètres de la loi multinomiale. De plus, à partir du modèle log-linéaire (3.7), nous avons que

m++= eu X i euAi X j euBj, (3.17) mi+ = eu+u A i X j euBj, (3.18) m+j = eu+u B j X i euAi, (3.19) de sorte que mij = eu+u A i+uBj = mi+m+j m++ . (3.20)

En combinant les équations (3.14) à (3.16) avec l’équation (3.20), nous obtenons l’expression suivante pour les estimateurs des valeurs espérées sous le modèle d’indépendance :

ˆ mij =

xi+x+j

N . (3.21)

Avec l’équation (3.21), nous pouvons également construire la table des valeurs espérées sous le modèle d’indépendance et comparer cette table à la table des valeurs observées grâce à la statistique χ20 de l’équation (1.27).2 Avec cette statistique, nous pouvons effectuer le test

d’indépendance de la section1.2.5en calculant sa valeur-p. Par contre, l’hypothèse nulle (3.8) étant associée à un modèle log-linéaire, nous disons donc plutôt qu’il s’agit d’un test de modèles. Si l’hypothèse nulle est acceptée, nous acceptons le modèle log-linéaire (3.8) pour décrire nos données.

Dans le cas d’un rejet, nous devons nous tourner vers l’hypothèse alternative qui considère une dépendance entre les deux variables. Nous pouvons d’ailleurs écrire un modèle log-linéaire qui inclut ce terme de dépendance dans la factorisation de la probabilité. Plus précisément, il s’agit du modèle

log(mij) = u + uAi + uBj + uABij , (3.22)

où uABij correspond à un terme de dépendance entre les deux variables pour la catégorie (i, j). On parle ici de terme de dépendance, puisqu’il empêche d’écrire la probabilité conjointe sous la forme d’un produit de deux probabilités indépendantes. Ce modèle possède toutefois plus de paramètres libres qu’il n’y a de comptes à estimer. Par analogie, cela peut correspondre à un système d’équations sous-déterminé. Afin de fixer la solution, nous ajoutons les contraintes

2. Dans cette expression, les mij sont remplacés par les xij, tandis que les ˆmij correspondent à ceux de

suivantes sur le système3 : X i uAi =X j uBj =X i uABij =X j uABij = 0. (3.23)

Ainsi, dans le modèle log-linéaire, le terme u correspond à un paramètre libre, alors que les contraintes des termes uAi et uBj impliquent qu’il y a (I − 1) et (J − 1) paramètres libres dans ces groupes respectifs et les deux dernières contraintes impliquent qu’il y a (I − 1)(J − 1) termes uABij libres. Le nombre total de termes libres est donc I × J , ce qui correspond au nombre total de cases élémentaires dans la table de contingence considérée.

Lorsqu’un modèle possède autant de paramètres libres que de cases élémentaires, celui-ci est qualifié de modèle saturé. Lorsque nous appliquons la méthode de maximisation de la vraisemblance en utilisant le modèle saturé (3.22) dans le logarithme de la vraisemblance (3.13), nous obtenons les estimateurs

ˆ

mij = xij. (3.24)

Les estimateurs sont donc identiques aux valeurs observées.

De ce fait, la comparaison de la table observée à la table des valeurs espérées sous le modèle saturé donne toujours une statistique χ20 nulle, faisant en sorte que le modèle saturé arrive toujours à expliquer les observations. Cela ne signifie toutefois pas que le modèle saturé est toujours le modèle le plus plausible. En effet, si le modèle d’indépendance arrive également à expliquer nos observations nous allons le favoriser par rapport au modèle saturé, puisqu’il s’agit d’un modèle plus simple [15].

L’un des intérêts des modèles log-linéaires réside dans cette comparaison entre un modèle non saturé et un modèle saturé. En effet, dans le cas d’une table en deux dimensions, si la conclusion du test statistique4 est le rejet du modèle d’indépendance, cela signifie qu’il est plausible de croire que nous avons besoin d’un terme d’interaction entre les variables pour expliquer nos observations.

Dans le cas des données de présence/absence, les variables aléatoires considérées, disons A et B, représentent des entités s’étant présentées (ou non) sur les N sites échantillonnés. Chaque variable possède donc deux catégories, c’est-à-dire que leur support est 0, 1, où 0 représente l’absence et 1 représente la présence. La table de contingence associée à cette situation est donc la suivante :

3. Il est à noter qu’il y a aussi des contraintes sur le modèle (3.7) qui correspondent aux deux premières sommes à l’équation (3.23). Nous n’allons pas plus loin sur ce sujet considérant que ces contraintes ne nous sont pas utiles pour obtenir les valeurs espérées [11], comme nous allons le voir dans la section3.1.4. Notons également que le choix des contraintes est arbitraire et nous pouvons en utiliser d’autres. Cela modifie donc les valeurs des paramètres « u », mais, tel qu’indiqué, ces dernières n’interviennent pas dans le calcul des ˆmij[11].

De plus, utiliser une contrainte plutôt qu’une autre ne change pas la valeur des comptes espérés [31,46,57]. 4. Le nombre de degrés de liberté de la loi du χ2utilisée dans le test statistique correspond au nombre total de cases dans la table de contingence auquel on soustrait le nombre de paramètres libres du modèle log-linéaire [11,15].

B = 0 B = 1 A = 0 x11 x12

A = 1 x21 x22

.

Pour déterminer si les entités A et B se présentent de manière indépendante, la démarche précédente est alors tout indiquée, puisque si les sites ont été échantillonnés de manière in- dépendante et que chaque site est identiquement distribué, la table de contingence construite correspond à une réalisation d’une loi multinomiale. Ainsi, nous pouvons utiliser les données pour tester les hypothèses

H0 : log(mij) = u + uAi + uBj pour tous les i = 1, 2, ..., I et j = 1, 2, ..., J ;

H1 : log(mij) = u + uAi + uBj + uABij pour au moins un couple (i, j). (3.25)

Pour effectuer le test de modèles, nous devons calculer la valeur-p de la statistique χ20 à partir d’une loi du χ2 à 1 degré de liberté. En effet, comme les variables A et B possèdent deux catégories, le nombre de degrés de liberté est déterminé par (2 − 1) × (2 − 1) = 1. Si l’hypothèse nulle est acceptée, cela signifie qu’il est plausible de croire que les entités se présentent sur les sites de manière indépendante, tandis que si elle est rejetée, il est plus plausible que les entités se présentent/s’absentent de manière dépendante.

Nous pouvons aussi représenter ces relations de dépendance (et d’indépendance) par un réseau. En effet, lorsque deux entités cooccurrent de manière dépendante sur les sites, cela signifie que nous pouvons tracer un lien entre elles. S’il n’existe pas de dépendance, ces dernières demeurent déconnectées dans le réseau, comme à la figure 3.1.

Figure 3.1 – Représentation réseau de H0 et de H1 pour deux entités. À gauche, l’hypothèse nulle

est acceptée, tandis qu’à droite, cette dernière est rejetée, indiquant une dépendance plausible entre les entités.