Estimation et tests de graphes - Gaussian Graphical Models and Model Selection

Revenons maintenant aux problèmes d’estimation et de tests de graphes pour des modèles graphiques (questions A.1 et A.2). Nous allons d’abord considérer le cas des modèles graphiques non orientés puis le cas orientés. À chaque fois, nous présentons les méthodes classiques d’estimation et de test, puis nous détaillons la contribution de la thèse.

1.3.1 Estimation et tests de graphes non orientés

La majorité des méthodes d’estimations du graphe G = (Γ, E) sont basées sur l’une des approches sui-vantes. La question A.2 du test d’adéquation d’un graphe a été peu traitée dans la littérature. Néanmoins, certaines méthodes d’estimation de graphe peuvent être reformulé sous la forme d’un test d’adéquation. Nous le préciserons lorsque c’est le cas.

Estimation bayésienne. Historiquement, les méthodes bayésiennes d’estimation et de sélection de modèles pour des modèles graphiques ont suscité un nombre important de recherches. En effet, le forma-lisme bayésien peut être reformulé dans le cadre des modèles graphiques16. Les procédures bayésiennes en modélisation graphique sont basées sur un principe commun : on part d’une mesure a priori π(G, Ω) sur le graphe G du modèle graphique gaussien et sur la matrice de précision Ω, et on veut obtenir la distribution a posteriori π(G, Ω|Z). Généralement, la mesure π(G, Ω) satisfait la décomposition π(G, Ω) = π(Ω|G)π(G). En d’autres termes, on spécifie une loi a priori sur la matrice Ω pour chaque graphe G, puis on spécifie une loi a priori à valeurs dans l’espace des graphes. Dans ce cas, la distribution a posteriori se décompose en π(G, Ω|Z) = π(Ω|Z, G)π(G|Z). La construction de loi a priori π(Ω|G) satisfaisante n’est pas toujours chose aisée. Lorsque le graphe G est décomposable (voir section 1.1.1.3), Dawid et Lauritzen [DL93] ont introduit la distribution Hyper-Inverse Wishart. Celle-ci présente le double avantage d’être facile-ment simulable et surtout d’être conjuguée, i.e. on connaît une expression analytique de la distribution a posteriori π(Ω|G, Z). Plus récemment, Roverato [Rov02] a défini des mesures Hyper-Inverse Wishart pour des graphes non décomposables. En revanche, ce nouvel a priori n’étant pas conjugué, le calcul de la loi a posteriori nécessite l’utilisation de méthode de type MCMC17. Letac et Massam [LM07] ont également généralisé les lois Hyper-Inverse Wishart et introduit de nouvelles distributions a priori pour les matrices de Wishart. La loi a priori sur l’espace des graphes est choisie pour charger uniformément tous les graphes, pour charger les graphes parcimonieux, ou alors pour charger uniquement les graphes décomposables. Dans le cas décomposable, Giudici et Green [GG99] ainsi que Wong et Carter [WCK03] ont développé des méthodes MCMC pour calculer le maximum a posteriori. Dellaportas et al. [DGR03] ont également introduit une procédure pour calculer le maximum a posteriori pour des lois a priori sur des graphes potentiellement non-décomposables.

En particulier, il est possible de voir les modèles bayésiens hiérarchique comme un exemple de modèle graphique gaussien orienté.

L’avantage des méthodes bayésiennes est leur grande flexibilité puisqu’on peut facilement intégrer n’importe quelle connaissance a priori sur le graphe. Cependant, elles présentent un coût computationnel élevé. De fait, la taille des graphes considérés dans la littérature reste généralement faible (< 50). Considé-rer uniquement des graphes décomposables permet de réduire légérement le temps de calcul. Cependant, une telle procédure n’est plus consistante.

Estimation de la matrice de précision et tests multiples : Le principe général de ces méthodes est de construire un estimateur bΩ de la matrice de précision, puis de sélectionner le graphe en utilisant une procédure de tests multiples basée sur les entrées de la matrice bΩ. Ainsi, Drton et Perlman [DP04] définissent bΩ comme l’inverse de la matrice de covariance empirique. Ils proposent ensuite une procédures de tests multiple pour tester Ω[i, j] = 0 pour tout i 6= j. Cette hypothèse est rejetée lorsque la statistique de test ^bΩ[i,j]

√_b

Ω[i,i]bΩ[j,j] est « grande » en valeur absolue. Nous avons énoncé en Section 1.3.1 la bijection entre le graphe minimal G et les 0 de la matrice Ω. Drton et Perlman prouvent un contrôle asymptotique du FWER18 qui correspond ici à la probabilité d’inclure une arête à tort. Cette procédure d’estimation est asymptotiquement consistante. De plus, leur méthode permet d’intégrer des connaissances a priori sur le graphe. On peut également l’étendre pour faire un test d’adéquation à un graphe donné (problème A.2). Cependant, leur procédure ne peut s’appliquer lorsque p est plus grand que n (pour inverser la matrice de covariance empirique). Pour résoudre ce défaut, Schäfer et Strimmer proposent d’appliquer une mé-thode de Bagging (Bootstrap aggregation voir Breiman [Bre96]) puis d’utiliser une pseudo-inversion pour mieux estimer Ω. Si leur procédure s’applique pour p et n arbitraires, il semble à la lueur des simulations réalisées par Villers et al. [VSBH08] que ses performances ne soient pas très concluantes.

Approximation du graphe : Wille et Bühlmann [WB06] proposent d’estimer le graphe d’indépen-dance du premier ordre noté G01 au lieu du graphe G du modèle graphique gaussien. Le graphe G01 est défini ainsi : Pour tout couple de sommets (a, b) dans Γ, on note Rab\∅ la corrélation entre les variables Za et Zb et pour tout c ∈ Γ \ {a, b}, on note Rab\c la corrélation de Za et Zb conditionnellement à Zc. Il existe une arête entre a et b dans le graphe G01 si et seulement si Rab\∅ 6= 0 et Rab\c 6= 0 pour tout noeud c ∈ Γ \ {a, b}. Wille et Bühlmann proposent alors une procédure de tests multiples des hypothèses minc∈Γ\{a,b}∪∅|Rab\c| = 0 pour tous les couples (a, b) dans Γ. Leur méthode sélectionne de façon consis-tante le graphe G01 dans l’asymptotique où log(p)/n tend vers 0. Cette procédure a plusieurs avantages : elle a un coût computationnel faible et s’applique même lorsque p est grand devant n. De plus, on peut éventuellement intégrer des connaissances a priori sur le graphe ou s’en servir pour construire une procé-dure de test d’adéquation (problème A.2). Cependant, la procéprocé-dure estime le graphe G01 et non pas le graphe minimal du modèle graphique G. Si G est acyclique, on a l’égalité G = G01. Sous une hypothèse dite de « faithfullness » (voir [WB06]), Wille et Bühlmann montrent que G ⊂ G01. Mais dans le cas général, ces deux graphes sont différents.

Kalisch et Bühlmann [KB07] ont introduit une procédure d’estimation du graphe basée sur une va-riante de la méthode PC-Algorithm (Spirtes et al. [SGS00]). Contrairement à la procédure précédente, on ne considère plus seulement les dépendances conditionnelles d’ordre 1, mais également les dépendances conditionnelles jusqu’à un ordre bk sélectionné par l’algorithme. Kalisch et Bühlmann prouvent que leur procédure est consistante pour la sélection de graphe dans une asymptotique où p ≫ n ≫ deg(G) si la distribution Z satisfait l’hypothèse de « faithfulness » évoquée précédemment. La notation deg(G) désigne le degré du graphe (i.e le nombre maximum de voisins). Le coût computationnel de la procédure est faible si le graphe sous-jacent est parcimonieux. Par contre, la procédure dépend d’un paramètre α dont le choix pratique reste un problème ouvert.

Estimation pénalisée de la matrice de précision : Récemment, plusieurs auteurs (Yuan et Lin [YL07], Barnerjee et al. [BEGd08], Friedman et al. [FHT08], Rothman et al. [RBLZ08]) ont proposé d’estimer la matrice de précision Ω en résolvant un problème de maximum de vraisemblance associé à une pénalité l1 sur les entrées de la matrice de covariance. Plus précisément Banerjee et al. [BEGd08],

proposent d’estimer Ω en minimisant le critère suivant : log(det(Ω^′)) + tr(Z∗ZΩ^′) + λ p X i=1 p X j=1 |Ω^′[i, j]|

L’estimateur obtenu est noté bΩ^λ et la procédure est appelée le glasso. L’estimateur bG^λ du graphe est construit en prenant pour arête les éléments non nul de bΩλ. L’algorithme proposé par Friedman permet de calculer rapidement bΩλet ce même pour p grand. Si Banerjee et al. contrôlent la probabilité de connecter (à tort) deux composantes connexes distrinctes du graphe, il n’existe pas à notre connaissance de résultat de consistance. Nous reparlerons de cette procédure d’estimation en Section 1.4.

Estimation et régression conditionnelle : Les deux méthodes que nous allons décrire reposent sur le lien entre indépendance conditionnelle et régression conditionnelle. Pour tout sommet a dans Γ, nous rappelons que la régression de Za conditionnellement à ZΓ\{a}s’écrit

Za =X

b6=a

θa[b]Zb+ ǫa (1.18)

où θa[b] = −Ω[a, b]/Ω[a, a] et ǫa est une variable gaussienne centrée indépendante des (Zb)b6=a. Ainsi, il est équivalent d’estimer le voisinage de a et le support du vecteur (θa). On se ramène donc au problème B.2 étudié dans la partie précédente.

Procédure lasso de Meinshausen et Bühlmann [MB06]. Les deux auteurs proposent d’estimer pour chacun des sommets a ∈ Γ le vecteur (θa) de la régression conditionnelle en utilisant l’estimateur lasso de paramètre λ, noté bθa

. Ils en déduisent alors deux estimateurs du graphe G : Pour le premier, on met une arête entre a et b si bθa

[b] est différent de 0 ou si bθb λ

[a] est différent de 0. Pour le second, on met une arête entre a et b si bθb

[a] est différent de 0 et si bθa λ

[b] est différent de 0. Comme énoncé dans la section précédente, Meinshausen et Bühlmann ont prouvé que sous certaines conditions qui assurent que le lasso est consistant en sélection de variables, leur méthode sélectionne de façon consistante le graphe G. Leur résultat asymptotique correspond au cas où p, n, et le degré du graphe tendent vers l’infini avec p≫ n ≫ deg(G). Par ailleurs, les auteurs proposent un choix de λ donnant des bons résultats en pratique. KGGM de Giraud [Gir08a]. Dans le même ordre d’idées, Giraud [Gir08a] estime le graphe G en utilisant simultanément les p problèmes de régression (1.18). Étant donné un collection M(Γ) de graphes non orientés de sommet Γ, il sélectionne le graphe bGK en minimisant le critère des moindres carrés simultanément pour chaque sommet a ∈ Γ

b GK := arg min G′∈M(Γ) X a∈Γ (1 + q(K,|ne′ G(a)|) min θ∈R^neG′^(a)kZa− θZne_G′(a)k2 n ,

où q(K, |neG′(a)|) qui dépend d’un paramètre K > 1 à choisir et de la taille |neG′(a)| du voisinage de a fait office de pénalité. En cela, KGGM repose sur une méthode de pénalisation très proche de la procédure de sélection de modèles étudiée par Baraud et al. [BGH08] en design fixe ou par V. dans le chapitre 4. Dans son travail simultané et indépendant du nôtre, Giraud obtient des bornes de type oracle sur l’efficacité de sa procédure.

Dans la Section 4.1.2, nous proposons une méthode proche de celle de Giraud. En quelques mots, nous proposons d’utiliser une approche analogue à celle de Meinshausen et Bühlmann mais en utilisant la méthode de sélection de modèles par pénalisation expliquée en Section 1.2.1.3. La différence principale avec la méthode de Giraud est que nous pouvons séparer notre critère à minimiser en p sous-critères à minimiser.

Ces deux méthodes sont très flexibles puisque le choix des collections de modèles est libre au sta-tisticien. Si aucun résultat n’est établi en terme de consistance, les méthodes satisfont des inégalités non-asymptotiques de type oracle. Cependant, leur coût computationnel est très élevé, ce qui les rend incalculables pour p plus grand que 40. Néanmoins, dans un travail en cours en collaboration avec Giraud et Huet [GHV], nous combinons la méthode de Giraud avec des procédures statistiques rapides comme le lasso pour diminuer drastiquement le temps de calcul. Nous évoquons cette approche dans la discussion du chapitre 4.

Pour finir cette présentation (non exhaustive) de méthodes d’estimation du graphe, mentionnons le travail de Villers et al. [VSBH08]. Elles ont réalisé une étude comparative de certaines des procédures précédemment citées sur des données simulées ainsi que sur des données réelles. Il en ressort que la mé-thode de Meinshausen et Bühlmann donne en général de bons résultats. Néanmoins, les résultats diffèrent légèrement selon les exemples considérés et les valeurs relatives de n et p. Il semble que lorsque p est faible (<40), la méthode KGGM donne de meilleurs résultats.

Contributions de la thèse :

Estimation de graphe. Comme expliqué plus haut, nous introduisons et étudions dans le chapitre 4 une méthode d’estimation de graphe assez proche de KGGM.

Test d’adéquation de graphe. Le chapitre 3 de cette thèse est le fruit d’un travail commun avec Fanny Villers. Nous y introduisons une procédure de test de voisinage d’un modèle graphique gaussien, puis en déduisons une procédure de test d’adéquation du graphe (question A.2). Par test de voisinage d’un modèle graphique, nous entendons le problème suivant. Étant donné le graphe G et a ∈ Γ, nous voulons tester l’hypothèse : « Z satisfait la propriété de Markov local en a par rapport à ne_G(a) ». Cette étude est dans la droite ligne des résultats du chapitre 2 évoqués en section 1.2.2. Pour J ⊂ Γ \ {a}, nous avons énoncé dans le lemme 1.9 l’équivalence entre l’assertion « Za ⊥⊥ ZΓ\{J}∪{a}|ZJ » et « le support du vecteur θa de la régression conditionnelle de Za par rapport à ZΓ\{a} est inclus dans J ». On se ramène donc au problème B.3, i.e. à tester l’hypothèse « le support θaest inclus dans ne_G(a) ». Nous définissons ainsi des procédures de test de voisinage qui sont des cas particuliers des procédures introduites dans le chapitre 2. Ces tests de voisinage héritent des propriétés décrites précédemment : ils sont peu coûteux en temps de calcul même lorsque p est grand, leur niveau est contrôlé et ils sont optimaux au sens minimax contre des voisinages alternatifs parcimonieux. Par ailleurs, leur définition est flexible et permet éventuellement de s’adapter à des choix spécifiques d’hypothèse alternative. Nous déduisons des tests de voisinage des tests d’adéquation de graphe en appliquant tout simplement une procédure de test de voisinage en chaque sommet a de Γ couplée à une méthode de Bonferroni. Enfin, nous présentons des illustrations numériques des performances sur des données simulées ainsi que sur des données réelles.

Nous avons mentionné précédemment que certaines méthodes d’estimation peuvent être déclinées sous la forme de tests de graphes (ex : Drton et Perlman [DP04] ou la procédure de Wille et Bühlmann [WB06]). Cependant, le problème d’estimation du graphe est intrinsèquement plus difficile. Les méthodes ainsi définies ne profitent pas de la « relative » simplicité du problème de test et ne permettent pas d’obtenir des résultats d’optimalité.

1.3.2 Estimation et tests de graphes orientés

Évoquons rapidement les méthodes d’estimation et de tests de graphes pour des modèles graphique orientés. Nous avons mentionné dans la section 1.1.1 qu’à un graphe dirigé acyclique on peut associer une numérotation (en général non unique) sur les sommets. La difficulté de l’estimation du graphe orienté −→ G est très différente si on connaît à l’avance une numérotation compatible avec −→

G ou non. Si on considère un test d’adéquation d’un graphe orienté acyclique −→

G aux données, la question ne se pose pas car on peut toujours utiliser une numérotation associée à ce graphe.

Numérotation connue. Lorsqu’une numérotation est connue, les méthodes d’estimation du graphe −

→

G sont proches des méthodes utilisées dans le cas non-orienté. Ainsi, Consonni et Leucari [CL01] pro-posent une méthode bayésienne d’estimation utilisant une distribution a priori sur tous les graphes orientés acycliques compatibles avec la numérotation donnée. La méthode de Drton et Perlman [DP04] introduite dans la sous-section précédente se généralise à ce cadre-ci. Contrairement aux modèles graphiques non orientés pour lesquels le graphe était déduit du pattern de 0 de la matrice de précision Ω, le graphe −→ G est déduit du pattern de 0 du facteur T de Cholesky de Ω. Ainsi, au lieu d’utiliser l’estimateur glasso, Huang et al. proposent un estimateur de maximum de vraisemblance de T pénalisé par la norme l1 de T . Globalement, ces méthodes présentent les mêmes avantages et inconvénients que leur pendant en es-timation de graphe non-orienté.

Concernant le test d’adéquation des données au graphe −→

G , on peut définir une procédure analogue à celle introduite dans la sous-section précédente. Les tests de voisinage sont maintenant remplacés par

les tests de l’hypothèse : « Zi ⊥⊥ Z<i\pa→−

G(i)|Zpa→−

G(i) » où Z_<i\pa→−

G(i) désigne l’ensemble des Zj tel que j < i et j /∈ pa−→

G(i). Cette hypothèse s’exprime en termes de support des paramètres de la régression conditionnelle de Zi par rapport Z<i. Ainsi, on peut facilement étendre la méthodologie décrite pour les tests de graphes non orientés aux graphes orientés acycliques.

Numérotation inconnue. Lorsqu’on ne connaît pas a priori de numérotation liée au graphe orienté, l’estimation du graphe devient un problème non identifiable. En effet, si une distribution est génèrée par un graphe orienté acyclique −→

G , alors il existe une classe d’équivalence de graphes orientés acycliques (minimaux au sens de l’inclusion) qui génèrent cette même distribution. On peut l’expliquer facilement de la façon suivante : La notion de causalité est sous-jacente à l’orientation d’un graphe d’un modèle graphique gaussien orienté. Or, en observant simultanément les (Zi)i∈Γ, on peut mettre en évidence des corrélation et pas des relations de causalité. L’objectif est donc ramené à l’estimation de la classe d’équivalence des DAG qui peuvent générer ces données (voir Chickering [Chi02]). On consultera [KB07] pour plus de détails sur ces classes d’équivalence ainsi que pour une courte revue des méthodes existantes.

Dans le document Gaussian Graphical Models and Model Selection (Page 30-34)