Illustration de la dépendance d’ordre - Apports de la modélisation causale dans l’évaluation de

X₁ X₂ X₃ X₄

X₅ X₆

Pour palier cette instabilité, d’autres versions de l’algorithme PC (cf algorithmes 1.5,1.6) ont été développées et seront détaillées dans la suite du manuscrit.

Tests d’indépendances conditionnelles

Pour évaluer les indépendances conditionnelles dans l’algorithme PC (ligne 8 de l’algo-rithme 1.4) plusieurs tests ont été proposés selon le type de variables (i.e. continues, discrètes

1.3. Apprentissage des réseaux Bayésiens 25 ou mixtes) (Neapolitan, 2004; Daly et al., 2011; Scutari, 2009; Baba et al., 2004). Pour les variables continues, les tests d’indépendances conditionnelles sont basés sur le coefficient de corrélation partielρ_X_i_X_j|Sdonné par :

ρ_X_i_X_j|S = ^ρ^XiXj−ρ_X_i_X_sρ_X_j_X_s q 1−ρ2 XiXs q 1−ρ2 XjXs , (1.18)

Les deux tests les plus utilisés sont :

• Le test t pour la corrélation de Pearson défini comme :

t(X_i, X_j|S) = ρ_X_i_X_j|S

n− |S| −2 1−ρ_X_i_X_j|S

(1.19)

• La transformation deZ de Fisher du coefficient de corrélation partiel proposée dans le logiciel TETRAD (Scheines et al., 1998) et le package R PCalg (Kalisch et al., 2012)et définie comme :

Z(X_i, X_j|S) = ¹ 2

n− |S| −3log^{1 +}^ρXⁱ^{, X}^j^S

1−ρX_i, X_jS^. ^(1.20) Pour les données discrètes, les tests d’indépendances conditionnelles sont fonctions des pro-babilités des tables de contingences des variablesX_i, X_j issues de la configuration des va-riables de l’ensembleS.

• Le test du X2 de Pearson peut être utilisé pour tester les indépendances condition-nelles de variables discrètes :

X²(Xi, Xj|S) = L X e=1 C X f=1 T X g=1 (Nef g−Eef g)² E_{ef g} ^, ^(1.21) avecE_{ef g} = ^N^e.g×N_{.f g} N_..g ^.

• Le testG2est également couramment utilisé :

G²(Xi, Xj|S) = 2 L X e=1 C X f=1 T X g=1 Nef glog^N^{ef g} E_{ef g}^, ^(1.22) avecEef g = ^N^e.g×N_{.f g} N_..g ^.

(Tsamardinos and Borboudakis, 2010).

Dans le cas de données mixtes, Tsagris (Tsagris et al., 2018) propose d’utiliser des mo-dèles de régression (linéaire, logistique multinomial, etc...) en fonction du type de variables réponses et d’utiliser un test du rapport de vraisemblance.

Dépendance d’ordre

Pour résoudre la dépendance d’ordre de l’algorithme PC, différentes approches ont été proposées. Une amélioration majeure est celle proposée par Ramsey (Ramsey et al., 2006) : l’algorithmeconservativePC (CPC) détaillé dans l’algorithme 1.5. Le problème de dépen-dance d’ordre est illustré avec la figure 1.5, si une vraie arête est enlevée prématurément alors de fausses arêtes peuvent subsister dans le graphe final. A partir de la condition de Markov (cf définition 1.2.7), Ramsey propose deux implications : la fidélité adjacente7 et l’orientation fidèle⁸.

Définition 1.3.2. Fidélité adjacente

Soit un ensemble de variables V dont la structure est représentée par le DAG G. Si deux variablesX_i, X_j sont adjacentes dansG alors elles sont dépendantes conditionnellement à n’importe quel sous ensemble deV\{X_i, X_j}.

Définition 1.3.3. Orientation fidèle

Soit un ensemble de variablesVdont la structure est représentée par le DAG G, et soit un triplet(X_i, X_j, X_k)non protégé dansG.

(O1) SiX_i →X_j ←X_k, alorsX_ietX_ksont dépendants quelque soit le sous ensemble

V\{X_i, X_k}qui contientX_j.

(O2) Sinon,X_i etX_ksont dépendants conditionnellement dans tous les sous ensembles

V\{X_i, X_k}qui ne contiennent pasX_j.

Jusqu’à présent des triplets non protégés étaient identifiés commev-structuressans pour autant que Xi et Xk soient conditionnellement indépendants sachant tous les autres sous-ensembles ne contenant pas X_j (cf étape 2 de l’algorithme 1.3). Cela rendait certaines v-structure identifiées non conformes sur tous les sous-ensembles. Ramsey propose alors de modifier l’étape 2 de l’algorithme PC (détermination desv-structures) à partir des deux im-plications proposées. Les modifications interviennent donc aux étapes 2 et 3 de l’algorithme

7. Adjacency-Faithfulnessdans la littérature. 8. Orientation-Faithfulnessdans la littérature.

1.3. Apprentissage des réseaux Bayésiens 27 PC et sont résumées dans l’algorithme 1.5. La première étape est identique à l’algorithme PC original puis lors de la recherche desv-structures, l’algorithme enregistre pour tous les triplets(X_i, X_j, X_k), les sous-ensembles des possibles parents deX_i etX_k qui rendentX_i

etX_kconditionnellement indépendants (X_i⊥⊥X_k|adj(X_i)ouX_i⊥⊥X_k|adj(X_k)). Pour tous ces sous-ensembles, le triplet(X_i, X_j, X_k)sera marqué commefidèles’il existe au moins un de ses sous ensembles et queX_j est parmi chaque sous-ensemble ou dans aucun ; il sera noté non-fidèlesinon. Puis dans la dernière étape d’orientation des arêtes, seuls les tripletsfidèles seront orientés selon les règles de Meek (Meek, 1995b).

Algorithme 1.5 :Algorithme Conservative PC (CPC).

Entrées :DonnéesD ={X1, ..., Xp}, l’ensemble des noeudsVordonné, seuil de significativitéα

1 Identifier le squelette;

2 pour chaqueTriplet(Xi, Xj, Xk)faire

3 siX_j ∈ {/ pa(X_i), adj(X_k)}avecX_i⊥⊥X_k|adj(X_i)ouX_i⊥⊥X_k|adj(X_k) alors

4 OrienterX_i −−X_j −−X_k enX_i →X_j ←X_ksinon si

Xj ∈ {pa(Xi), adj(Xk)}avecXi⊥⊥Xk|adj(Xi)ouXi ⊥⊥Xk|adj(Xk) alors

5 le tripletX_i −−X_j −−X_kest marqué commefidèlesinon

6 Marquer le triplet commenon-fidèle

7 fin

8 fin

9 fin

10 fin

11 Orienter les arêtes d’après les règles d’orientation uniquement aux triplets marqués fidèles;

Sortie :CPDAGG^ˆ

L’algorithme PC-stable a été proposé par Colombo (Colombo and Maathuis, 2014) pour palier cette dépendance d’ordre. La première étape de l’algorithme 1.6 PC-stable, avant de tester les indépendances conditionnelles d’une paire de variables à un niveaun, va stocker tous les noeuds adjacents à la paire dansadjsep. De ce fait, la délétion d’une arête n’affecte plus l’ensemble des dépendances conditionnelles testées pour les autres paires de variables pour un même niveau de cardinalitén. Autrement dit, à chaque niveaunles arêtes qui doivent être enlevées sont enregistrées durant toute la recherche à ce niveaunet ne sont supprimées qu’après le passage à un niveau de cardinalité n + 1. Les auteurs ont également modifié l’étape 2 de l’algorithme PC sur les mêmes principes que l’algorithme CPC.

Algorithme 1.6 :Étape 1 de l’algorithme PC-stable.

Entrées :DonnéesD ={X₁, ..., X_p}, l’ensemble des noeudsVordonné, seuil de significativitéα

1 Former le graphe complet non dirigéGà partir de l’ensembleV;

2 n =−1;

3 répéter

4 n =n+ 1;

5 pour tous lesles arêtes deX_i dansGfaireadjsep(X_i) =adj(X_i,G);

6 répéter

7 Sélectionner une paire de variables adjacentesX_ietX_j dansGtel que

|adjsep(X_i)\ {Xj}| ≥n

8 répéter

9 Sélectionner un sous ensembleS⊆adj(X_i,G)\ {X_j}avec|S|=n;

10 siX_i⊥⊥X_j|S alorsSupprimerX_i −−X_j dansG;

11 sep(X_i, X_j) =sep(Y, X) =S;

12 jusqu’àce queX_i etXj ne sont plus adjacents dansGou tous les ensembles S⊆adjesep(X_i)\ {X_j}avec|S|=nsoient testés pour lad-séparation;

13 jusqu’àce que toutes les paires adjacentes(X_i, X_j)dansGavec

|adjsep(X_i)\ {X_j}| ≥nsoient testées;

14 jusqu’àToutes les paires adjacentes(Xi, Xj)dansG satisfassent

|adjsep(X_i)\ {Xj}| ≤n;

Sorties :GrapheG^ˆ, l’ensemble des noeudssepqui satisfont lad-séparation

1.3.3 Méthodes hybrides

Les méthodes hybrides sont constraint-based, le squelette est appris à partir des tests d’indépendances conditionnelles et score-based, où le score est recherché en restreignant l’ensemble des arêtes au squelette estimé. Un des premiers algorithmeshybride, développé par Singh (Singh and Valtorta, 1993, 1994) dans lequel ils recherchaient l’ordre des variables en utilisant des tests d’indépendances conditionnelles pour appliquer ensuite l’algorithme K2. L’algorithme BENEDICT (Acid and de Campos, 1996; Acid and De Campos, 2000, 2001) qui calcule les différences entre chaque graphe candidat et les données en utilisant le score Kullback-Leibler. Deux autres exemples sont les algorithmes Sparse candidate (SC) de Friedman (Friedman et al., 1999) et l’algorithme Max-Min-Hill-Climbing (MMHC) de Tsamardinos (Tsamardinos et al., 2006).

Ces algorithmes peuvent être appliqués sur des graphes avec plusieurs milliers de va-riables. Ils consistent en deux étapes dites derestrictionet demaximisation. Dans l’étape de restriction, un ensemble de parents candidats C_i ⊂ V est déterminé pour chaque variable

1.3. Apprentissage des réseaux Bayésiens 29

X_iréduisant ainsi l’espace de recherche. Dans l’étape demaximisation, une recherche glou-tonnehill climbing est effectuée en se limitant aux ensemblesC_i. Dans l’algorithmeSparse Candidate, ces deux étapes sont effectuées de façon itérative alors que dans le MMHC elles ne sont effectuées qu’une seule fois. La méthode MMHC décrite dans 1.7 commence avec l’apprentissage de la structure et des sous ensembles parents-enfants (P C_i) pour chaque va-riable X_i en testant les indépendances conditionnelles avec la méthode MMPC (Max-Min Parents and Children) (Tsamardinos et al., 2003). Puis, à partir des ensemblesP C_i, une re-cherche gloutonnehill climbingest effectuée limitant ainsi le nombre de graphes candidats à tester.

Algorithme 1.7 :Algorithme Max-Min Hill-Climbing (MMHC). Entrées :DonnéesD ={X₁, ..., X_p}

1 Restriction;

2 pourtoutes les variablesX faire

3 P C_i =M M P C(X_i,D)

4 fin

5 Maximisation;

6 Commençant par un graphe vide, exécuter une recherche typehill-climbingen ne testant l’addition de flèchesX_i →X_j que siX_i ∈P C_i;

Sortie :DAGG^ˆ

L’algorithme hybride l’ARGES (Adaptively Restricted GES), est une modification de l’algorithme GES proposé par Nandy (Nandy et al., 2015) dans lequel, après avoir trouvé l’ensemble des parents candidatsC_i, une recherche gloutonne équivalente (GES) est réalisée, donnant en sortie un CPDAG et non un DAG.

1.3.4 Cas des variables latentes

L’apprentissage de structures à partir de données observationnelles, repose sur l’hypo-thèse que toutes les variables d’intérêts sont mesurées. S’il existe des variables latentes (non mesurées), une classe de modèles graphiques proche des DAGs permet de modéliser les re-lations entre les variables observées et les variables latentes. Ces graphes sont ditsMaximal ancestral graph (MAG) ou graphe ancestral maximum. A l’instar des DAGs, les dépen-dances des MAGs peuvent être lues graphiquement à l’aide d’un critère dit dem-séparation, qui est une généralisation du concept ded-séparation. De même que pour les CPDAGs qui représentent des DAGs de classe Markov équivalente, le PAG (Partial ancestral graph) ou graphe ancestral partiel représente laclasse Markov équivalentedes MAGs (Zhang, 2008a;

Richardson and Spirtes, 2002). Les algorithmes qui permettent de retrouver ces structures sont le FCI (Fast causal inference) (Spirtes et al., 1999, 2000). L’algorithme FCI est une adaptation de l’algorithme PC comprenant plus de tests d’indépendances conditionnelles et plus de règles d’orientations (Zhang, 2008b). Des adaptations du FCI ont été développées dans un contexte de grande dimension (Claassen, 2013; Colombo et al., 2012).

1.3.5 Apprentissage actif

Jusqu’à présent, j’ai présenté des algorithmes d’apprentissage appliqués sur des données observationnelles. Cependant il est possible d’avoir à la fois des données observationnelles et des données issues d’expérimentation. L’apprentissage actif ou active learning a été dé-crit pour les réseaux Bayésiens (Tong and Koller, 2001; Murphy, 2001). Selon Pearl (Pearl, 2009), un réseau Bayésien peut être vu comme un modèle causal (cf chapitre 2) et sous cette perspective le réseau Bayésien peut être utilisé pour répondre à des requêtes interven-tionnelles après avoir spécifié les valeurs de certaines variables. C’est à dire que pour un sous-ensemble de variablesQissues de données expérimentales, on peut choisir une réalisa-tion quelconqueqdeQ(appeléerequête). La réponse donnée par cetterequêteest interprétée comme le résultat d’une intervention. Le principe de ces méthodes est donc à partir des don-nées expérimentales, de choisir activement les expérimentations qui permettront de mieux apprendre la structure. Les méthodes proposées par Tong et Murphy étaient principalement pour des RBs avec des variables discrètes. Pour les réseaux Bayésiens gaussiens, d’autres méthodes ont été décrites dans (Hauser and Bühlmann, 2014; Nuel et al., 2013; Cho et al., 2016).

1.4 Critères d’évaluations

La comparaison de méthodes d’apprentissages repose sur des critères d’évaluation de nature différente : i) les distributions des réseaux Bayésiens estimés et théoriques peuvent être comparées, ii) les structures des graphes estimés et théoriques peuvent être également comparées ; iii) dans une approche mixte, les propriétés inférentielles peuvent être comparées (Nguyen, 2012; Singh et al., 2017).

1.4. Critères d’évaluations 31

1.4.1 Comparaison des distributions

Méthode du score

Le score permet d’évaluer la qualité d’un graphe appris en comparant le score du réseau Bayésien théorique(G₀)et celui estimé( ˆG), celui-ci est bon si S( ˆG,D) ' S(G₀,D). Cette méthode prend en compte laclasse équivalente de Markov. Pour un faible nombre d’observa-tions, des scores peuvent être équivalents sans pour autant appartenir à laclasse équivalente de Markov.

Divergence de Kullback-Leibler

La divergence de Kullback-Leibler mesure la différence entre deux distributions de pro-babilités (Kullback and Leibler, 1951). Pour des variables discrètes, elle est définie par :

D_KL( ˆG,G₀) = ^X x∈X

P_Gˆ(x)log ^P^G^ˆ⁽^x⁾

PG0(x)^. ^(1.23) A l’instar de la méthode des scores, elle prend en compte laclasse équivalente de Markov.

1.4.2 Comparaison de la structure des graphes

Sensibilité-spécificité

Les performances d’un test diagnostic sont évaluées en termes de sensibilité⁹ et de spé-cificité10. Il s’agit ici de comparer les vraies présences et les vraies absences d’arêtes. On définit la sensibilité comme la proportion de flèches détectées parmi les vraies flèches et la spécificité comme la proportion d’absence de flèches détectées comme vraies absences de flèches. Pour calculer la sensibilité (Se) et la spécificité (Sp) il nous faut d’abord calculer les entités suivantes :

• VP (vrai positif) : nombre de flèches présentes dansG^ˆetG₀,

• FP (faux positif) : nombre de flèches présentes dansG^ˆmais pas dansG₀,

• VN (vrai négatif) : nombre de flèches absentes deG^ˆetG₀,

• FN (faux négatif) : nombre de flèches absentes deG^ˆmais pas dansG₀. Puis la sensibilité et spécificité sont calculées comme :

9. Sensibilité : capacité du test à détecter les vrais malades.

Se= ^{V P}

V P +F N^, ^(1.24)

Sp= ^{V N}

V N +F P^. ^(1.25)

La sensibilité et la spécificité caractérisent donc les capacités d’identifier les vraies dépen-dances et indépendépen-dances d’un algorithme. Ce sont des indices qui sont faciles à calculer, cependant si c’est une comparaison de CPDAG, ces indices ne tiennent pas compte de la classe équivalente de Markovcar une arête bidirigée sera comptée comme deux flèches diri-gées et augmentera donc le nombre de FP.

Distance de Hamming

Un autre indice qui permet de mesurer la différence entre la structure apprise et la struc-ture théorique est la distance de Hamming (Acid and De Campos, 2003). Cette distance permet de quantifier la différence entre le DAG estimé et le DAG théorique. Une version de cette distance, la Structural Hamming Distance (SHD) qui prend en compte la classe équivalente de Markov a été proposée par : (Tsamardinos et al., 2006) et est décrite dans l’algorithme 1.8.

Algorithme 1.8 :Distance structurelle de Hamming (SHD). Entrées :Deux CPDAGsG^ˆetG₀

1 shd= 0;

2 pour chaquearêtesAdifférentes dansG^ˆetG₀ faire

3 siAn’est pas dansG^ˆalors shd=shd+ 1;

4 siAn’est pas dansG0 alors shd=shd+ 1;

5 siAest mal orienté dansG^ˆpar rapport àG₀alors shd=shd+ 1;

6 fin

Sortie :shd

Cet indice est complémentaire de la sensibilité-spécificité car il décrit les erreurs graphiques.

Exemple. Dans la figure 1.6, les mesures de SHD, Se et Sp sont données par

• PourG^ˆ₁ :SHD(G₀,G^ˆ₁) = 2, Se(G₀,G^ˆ₁) = 50%et Sp(G₀,G^ˆ₁) = 0%

• PourG^ˆ2 :SHD(G0,G^ˆ2) = 1, Se(G0,G^ˆ2) = 50%et Sp(G0,G^ˆ2) = 100%

1.4. Critères d’évaluations 33 Un même indice de SHD peut décrire plusieurs CPDAGs avec des sensibilités et spécificités différentes.

A B

(a)Vrai CPDAGG₀

A B C (b)CPDAGG^ˆ₁ A B C (c)CPDAGG^ˆ₂ A B C (d)CPDAGG^ˆ₃

Dans le document Apports de la modélisation causale dans l’évaluation des immunothérapies à partir de données observationnelles (Page 47-56)