Statistiques et configurations suffisantes

2.3 Application aux jeux de données

3.1.4 Statistiques et configurations suffisantes

En présence d’une table à plus de deux dimensions, il n’est pas toujours possible d’utiliser la méthode de la maximisation de la vraisemblance pour obtenir une expression pour les ˆmijk

sous un modèle log-linéaire hiérarchique [10,11,15]. Par exemple, pour le modèle sous-saturé en trois dimensions, il est impossible d’obtenir une expression pour m_ijk en manipulant les sommes de type (3.14) à (3.16).

Il existe toutefois un algorithme itératif qui permet de converger vers ces valeurs, mais ce dernier requiert l’identification des statistiques et des configurations suffisantes [11]. Pour les obtenir, nous devons écrire le logarithme de la vraisemblance du processus qui génère les tables de contingence. En trois dimensions, nous avons la vraisemblance

log Q N !

i,j,kxijk!

i,j,k

xijklog(mijk) − N log(N ). (3.40)

Le seul terme qui contient m_ijk dans l’expression estP

i,j,kxijklog(mijk), que nous identifions

comme le noyau (kernel [11]) du logarithme de la vraisemblance. Si nous insérons la définition du modèle saturé (3.30) dans le noyau nous déduisons

i,j,k

xijklog(mijk) = N u +

X i xi++uAi + X j x+j+uBj + X k x++kuCk +X ij xij+uABij + X ik xi+kuACik +X jk x+jkuBCjk + X ijk

xijkuABCijk . (3.41)

De cette manière, nous pouvons déjà identifier les statistiques suffisantes comme étant les termes en x dans chacune des sommes [10,11].

Pour le modèle saturé, les ˆmijksont exactement équivalents aux observations. L’identification

des statistiques suffisantes n’est donc pas nécessaire. Par contre, pour trouver les statistiques suffisantes d’un autre modèle hiérarchique, il faut d’abord retirer les sommes qui contiennent les termes en u qui ne font pas partie du modèle considéré.

Par exemple, si nous posons uABC_ijk = 0, nous obtenons le modèle sous-saturé et le noyau devient

i,j,k

xijklog(mijk) = N u +

X i xi++uAi + X j x+j+uBj + X k x++kuCk +X ij xij+uABij + X ik xi+kuACik + X jk x+jkuBCjk . (3.42)

Pour savoir quelles statistiques suffisantes nous devons utiliser dans l’algorithme, il faut trans- former davantage le noyau. À cette fin, nous allons retravailler l’expression du modèle log- linéaire.

D’abord, il est nécessaire d’identifier les termes dont la position est la plus élevée dans la hiérarchie. Dans ce cas-ci, nous avons uAB_ij , uAC_ik uBC_jk . Par la suite, nous regroupons les termes d’ordre inférieur avec les termes d’ordre supérieur, si les exposants du terme d’ordre inférieur sont tous en commun avec le terme d’ordre supérieur. Par exemple, nous pourrions former les groupes uA_i + uAB_ij , uC_j + uAC_ik et uB_i + uBC_jk . Nous complétons ensuite chacun des groupes en ajoutant les termes manquants dans la hiérarchie. Pour que cette expression du modèle log-linéaire soit équivalente à la première, nous devons aussi soustraire les termes que nous ajoutons. Pour le premier groupe (uA_i + uAB_ij ), nous avons alors uA_i + uB_j − uB

j + uABij . En

effectuant cette opération sur tous les groupes et en regroupant les termes négatifs, nous obtenons

où nous posons ensuite les variables

UAB = (uAi + uBj + uABij ), (3.44)

UAC = (uAi + uCk + uACik ), (3.45)

UBC = (uBj + uCk + uBCjk ). (3.46)

Le noyau devient alors

i,j,k

xijklog(mijk) = N u +

  X ij xij+UAB+ X ik xi+kUAC+ X jk x+jkUBC   −   X i xi++uAi + X j x+j+uBj + X k x++kuCk  . (3.47) Le premier groupe de sommes est celui qui permet d’identifier l’ensemble des statistiques suffisantes, puisque le second est redondant en raison de la définition des termes en « U ». Nous rappelons que les statistiques suffisantes sont les termes en x (incluant x₊₊₊ = N ). Or, avec la forme (3.47), nous avons regroupé les statistiques suffisantes en groupes, que nous appelons les configurations suffisantes [10,11,29].

Une configuration correspond à une somme des xijk sur l’un des indices. Il s’agit donc d’un

regroupement d’entrées dans les marges de la table. Ces dernières sont notées C_y, où y est un ensemble d’indices sur lesquels la somme n’a pas été faite. Par exemple C12= xij+ =P_kxijk.

Dans l’expression (3.47), les configurations suffisantes sont C12, C13 et C23.

Une méthode systématique pour obtenir les configurations suffisantes ainsi qu’une méthode pour déterminer s’il est possible d’estimer directement les comptes espérés sont présentées au chapitre 3 de la référence [11]. Une fois ces configurations obtenues, nous pouvons utiliser la méthode itérative proportionnelle6 (iterative proportional fitting) pour obtenir les ˆmijk

[11,15,21].

Pour le modèle sous-saturé en trois dimensions, l’algorithme itératif est le suivant. Nous posons d’abord les valeurs initiales ˆm(0)_ijk = 1, où l’exposant (0) désigne l’état des valeurs estimées à l’itération 0. Par la suite il suffit de calculer les comptes espérés en utilisant chacune des configurations, disons dans l’ordre C₁₂= xij+, C13= xi+k et C23= x+jk dans les expressions

suivantes :

m(1)_ijk= ˆm(0)_ijkxij+ ˆ m(0)_ij+

, (3.48)

puis

m(2)_ijk= ˆm(1)_ijkxi+k ˆ m(1)_i+k

, (3.49)

et finalement ˆ m(3)_ijk= ˆm(2)_ijkx+jk ˆ m(2)_+jk . (3.50)

Cela correspond donc à un cycle complet.

L’identification des configurations suffisantes permet d’écrire la fraction mise en évidence dans les expressions (3.48) à (3.50). En effet, si nous désirions calculer les comptes espérés sous un autre modèle, il suffirait de modifier ces fractions en mettant les configurations suffisantes au numérateur et les comptes espérés sommés sur les mêmes indices au dénominateur.

Après ce premier cycle, les calculs (3.48) à (3.50) sont alors répétés en prenant les dernières valeurs estimées comme point de départ. Le critère de convergence est choisi à notre guise et prend la forme | ˆm(3)_ijk− ˆm(3r−3)_ijk | < δ, où r est un entier strictement positif et δ 1. Des preuves que l’algorithme converge vers les valeurs espérées sont données dans [11, 21] et la méthode générale pour construire l’algorithme se retrouve dans [11].

Malgré l’efficacité de cette méthode, il faut interpréter la table des valeurs estimées avec prudence. En effet, la convergence de l’algorithme n’est pas gage de validité du test [29,54,55]. Il arrive que l’algorithme converge vers une solution alors que celle-ci ne cadre pas tout à fait avec le modèle log-linéaire que nous testons. Heureusement, ces cas problématiques sont très faciles à identifier : la table des valeurs espérées comporte des entrées nulles [14, 29]. Cela peut se produire dans deux situations que nous pouvons distinguer. Le premier cas survient lorsqu’il existe au moins une entrée nulle dans au moins une configuration suffisante. Dans ce cas, certaines valeurs estimées dans les équations (3.48) à (3.50) deviennent nulles dès le premier cycle. Si, pour les prochains cycles, nous considérons que le terme 0₀ = 0, ces entrées nulles persisteront dans la table, autrement, l’algorithme renvoie des valeurs invalides. Si ce cas se présente, certains ouvrages suggèrent d’utiliser les modèles quasi log-linéaires, qui tiennent compte des entrées nulles dans la table [11, 22]. Cela ne signifie pas que le modèle que nous testons est invalide, mais qu’il existe un modèle plus approprié pour tenir compte de la structure des données.

Le second cas survient lorsqu’il existe des entrées nulles dans la table qui sont disposées de manière spécifique sans créer d’entrée nulle dans les configurations suffisantes. Dans ce cas, la table espérée converge vers la table des valeurs observées, ce qui mène à une statistique χ2₀ nulle. Dans la littérature, ce cas problématique est associé à des estimateurs par maximum de vraisemblance « inexistants » [29].7 Il existe différentes techniques pour identifier ce cas problématique et le traiter si les données le permettent. Dans certains cas, on parle d’extraire les estimés par maximum de vraisemblance étendus8(extended maximum likelihood estimates) [24,26,28,29,54,55].

7. Cette idée d’inexistence des valeurs estimées a aussi été critiquée par quelques auteurs [3]. 8. Pour une initiation à ces concepts, voir [38] et [5].

Comme nous allons le voir à la prochaine section, si l’un de ces problèmes se présente durant l’inférence, nous disons que la conclusion pour le groupe d’entités étudié est indéterminée. Nous préférons cette approche, car mélanger plusieurs techniques d’inférence pourrait générer des ambiguïtés dans l’interprétation de la structure du complexe simplicial inféré. En ne conservant qu’une seule méthode, les résultats obtenus peuvent tous être interprétés de la même manière.

Dans le document Inférence d'interactions d'ordre supérieur et de complexes simpliciaux à partir de données de présence/absence (Page 69-73)