Navigation dans l’espace des ordres : MCMC-Mallows

4.3.1 Estimateur du maximum de vraisemblance

Nous allons présenter dans cette partie la stratégie de Rau et al. (2013) qui contraire-ment à la direction prise par Bülhmann, consiste en la simulation d’un DAG complet à partir de données d’observations et d’interventions. On se place dans le cadre d’un ré-seau bayésien gaussien : soit X = (X₁,...,Xp) les p variables gaussiennes attachées aux p noeuds. On inclut les liens causaux de la façon suivante :

X = m + XW + ǫ

où m est le vecteur des moyennes, W la matrice des effets causaux directs et ǫ le vecteur de bruit de variance σ². L’objectif est de réussir à inférer la matrice W à partir des données disponibles. On suppose que l’on dispose de l’ordre topologique des données, c’est-à-dire que i < j seulement si i ∈pa(j ). Nous souhaitons un DAG, nous cherchons donc une ma-trice W triangulaire supérieure. En identifiant la loi P(Xj|do(Xi= x),pa(Xj)), on s’aperçoit rapidement que cette matrice correspond à la matrice des effets causaux directs. Plutôt que de viser la matrice des effets causaux directs W, on peut se fixer comme objectif l’es-timation de la matrice des effets causaux totaux L = (I − W)−1= I + W + W²+ ... + W^p−1. Cette seconde expression n’est possible que grâce à la nilpotence de W, induite par le caractère DAG de notre modèle. Les valeurs de cette matrice L désignent l’ensemble des

effets d’une variable sur une autre, directs ou indirects. On introduit quelques notations : soit x l’ensemble des données à disposition, on note J_kl’ensemble des noeuds pour les-quels on a effectué une intervention au réplicat k. On note Kj l’ensemble des réplicats tel qu’il n’y ait pas d’intervention sur le noeud j et Nj= card(Kj). Nous pouvons écrire alors la log-vraisemblance [71], le détail du calcul est laissé en annexe :

ℓ(m,W,σ²) = −^log(2π)₂ ^X j Nj−^X j Njlog(σj) −¹₂^X k X j ∉Jk 1 σ²₂(xk j − x^kWe^T_j _{− m}j)². On maximise cette vraisemblance en utilisant le gradient par rapport aux différentes quantités. On obtient : mj= ¹ N_j X k∈Kj ³ x^k_j− x^kWe^T_j^´.

On peut réecrire la log-vraisemblance en recentrant les données, c’est-à-dire en posant :

y^{k, j} = xk − 1 N_j X k′∈Kj x^k^′.

Nous obtenons alors : ˜ ℓ(σ,W) = −^log(2π)₂ ^X j Nj−^X j Njlog(σj) −¹₂^X k X j ∉Jk 1 σ²_j ³ y^{k, j}_j − y^{k, j}We^T_j^´².

De cette façon, on peut annuler le gradient et obtenir W comme solution d’un système

linéaire : _X i′,(i′,j )∈E w_(i′,j ) X k∈Kj y_i^{k, j}y_i^{k, j}_′ = ^X k∈Kj y_i^{k, j}y^{k, j}_j ∀^¡i , j¢ ∈ E .

Ce système peut toutefois être dégénéré si nous ne disposons pas de données suffisantes ou si les interventions n’apportent pas assez d’informations. On peut enfin obtenir σ de la manière suivante : σ²_j= ¹ Nj X k∉Kj ³ y^{k, j}_j − y^{k, j}We^T_j^´².

Nous disposons ainsi, à ordre connu, de l’estimateur de maximum de vraisemblance. Ce-pendant, dans les cas concrets, nous n’avons pas de structure prédéfinie sur les données et nous devons ainsi découvrir un ordre topologique acceptable.

4.3.2 Architecture Métropolis-Hastings

On travaille avec une approche bayésienne empirique : on se donne une loi a priori uniforme et on tente de trouver une loi a posteriori des ordres :

P(o|données) ∝ ^R_θP(données|θ,o)P(θ|o)P(o)dθ ∝ P(données|ˆθo)P(o).

La seconde ligne est une approximation qui caractérise le bayésien empirique : nous sup-posons que la loi en θ est proche d’une masse entièrement concentrée en son maximum de vraisemblance. C’est ainsi qu’on voit apparaître l’expression de la vraisemblance et on a accès à cette loi a posteriori. On va se placer dans un cadre Hastings-Métropolis pour réussir à simuler cette loi [42]. On utilise pour cela une loi de proposition de Mallows [65]. C’est une loi symétrique, qui admet un paramètre de mode et un paramètre de disper-sion. La symétrie est très intéressante car elle permet de simplifier le test d’acceptation.

CHAPITRE 4. ESTIMATION D’EFFETS CAUSAUX PAR PÉNALISATION L₂

Son paramètre de dispersion qu’on appelle sa température, nous permet de calibrer la loi de proposition pour explorer l’espace au mieux. Cette température est choisie en fonc-tion du taux d’acceptafonc-tion : on choisit une température qui donnera un taux d’accepta-tion autour de 25% ce qui nous semble être un bon compromis par analogie avec la loi multinormale où il a été prouvé que le taux d’acceptation optimal est aux alentours de 25% [81]. La loi de Mallows permet de simuler des permutations aléatoires d’un vecteur, on va donc l’utiliser pour tirer des ordres aléatoirement. L’algorithme que l’on utilise est le suivant :

Algorithme 10 : MCMC-Order

Entrées : Ordre initial o, Données x, Température β, nombre d’itérations n Sorties : Echantillons o1,...,on

pour i=1 :n faire

Simuler y_n_∼rmallow(o_n−1,β) ;

o_n= ynavec probabilité min µ 1, ^{P(données|ˆθ}yn) P(données|ˆθ_on−1⁾ ¶ ; Sinon on= o_n−1

En sortie de l’algorithme, nous obtenons une trajectoire d’ordres et de paramètres as-sociés. En effectuant les moyennes empiriques sur les matrices des effets causaux directs et totaux, nous nous approchons de l’estimation des mécanismes sous-jacents. Nous ob-tenons cependant un graphe complet, avec des effets variables. Nous devons choisir un seuil en valeur absolue qui nous permet de choisir quelles arêtes ont un effet suffisant pour être estimées présentes. Ce seuil est choisi en pratique avec une procédure de vali-dation croisée.

4.3.3 Limites de la méthode

La méthode proposée a été testée sur des petits réseaux de gènes, de l’ordre d’une di-zaine de noeuds, et elle montre déjà quelques limites. Tout d’abord le nombre de réplicats nécessaires pour l’estimation est de l’ordre du nombre de noeuds, et en pratique nous ne les avons pas toujours. En effet, la résolution du système linéaire donnant W est de rang maximum du nombre de réplicats.

Même si nous avons un nombre de réplicats suffisant, un effet de surajustement ap-paraît, du fait de l’espace des paramètres. Celui-ci est de l’ordre du nombre de nœuds au carré, il faut réussir à traiter ce problème avant de pouvoir espérer passer à des problèmes de plus grande dimension. Enfin la navigation par MCMC pose deux problèmes : le pre-mier est le temps de calcul. En petite dimension, l’estimation est immédiate, le temps de calcul pour une itération est donc très faible. Lorsque l’on augmente la dimension, les calculs peuvent être plus lents, rendant alors la procédure MCMC extrêmement lente. D’autre part, l’espace des ordres croît de manière factorielle en fonction du nombre de nœuds, il est nécessaire alors d’avoir beaucoup plus d’itérations pour pouvoir convena-blement couvrir l’espace et valider notre procédure.

4.4 Vers la grande dimension : Pénalisation ridge &

Dans le document Inférence de réseaux causaux à partir de données interventionnelles (Page 66-69)