• Aucun résultat trouvé

X1 X2 X3 X4

X5 X6

Pour palier cette instabilité, d’autres versions de l’algorithme PC (cf algorithmes 1.5,1.6) ont été développées et seront détaillées dans la suite du manuscrit.

Tests d’indépendances conditionnelles

Pour évaluer les indépendances conditionnelles dans l’algorithme PC (ligne 8 de l’algo-rithme 1.4) plusieurs tests ont été proposés selon le type de variables (i.e. continues, discrètes

1.3. Apprentissage des réseaux Bayésiens 25 ou mixtes) (Neapolitan, 2004; Daly et al., 2011; Scutari, 2009; Baba et al., 2004). Pour les variables continues, les tests d’indépendances conditionnelles sont basés sur le coefficient de corrélation partielρXiXj|Sdonné par :

ρXiXj|S = ρXiXj−ρXiXsρXjXs q 1−ρ2 XiXs q 1−ρ2 XjXs , (1.18)

Les deux tests les plus utilisés sont :

• Le test t pour la corrélation de Pearson défini comme :

t(Xi, Xj|S) = ρXiXj|S

s

n− |S| −2 1−ρXiXj|S

(1.19)

• La transformation deZ de Fisher du coefficient de corrélation partiel proposée dans le logiciel TETRAD (Scheines et al., 1998) et le package R PCalg (Kalisch et al., 2012)et définie comme :

Z(Xi, Xj|S) = 1 2

p

n− |S| −3log1 +ρXi, XjS

1−ρXi, XjS. (1.20) Pour les données discrètes, les tests d’indépendances conditionnelles sont fonctions des pro-babilités des tables de contingences des variablesXi, Xj issues de la configuration des va-riables de l’ensembleS.

• Le test du X2 de Pearson peut être utilisé pour tester les indépendances condition-nelles de variables discrètes :

X2(Xi, Xj|S) = L X e=1 C X f=1 T X g=1 (Nef g−Eef g)2 Eef g , (1.21) avecEef g = Ne.g×N.f g N..g .

• Le testG2est également couramment utilisé :

G2(Xi, Xj|S) = 2 L X e=1 C X f=1 T X g=1 Nef glogNef g Eef g, (1.22) avecEef g = Ne.g×N.f g N..g .

(Tsamardinos and Borboudakis, 2010).

Dans le cas de données mixtes, Tsagris (Tsagris et al., 2018) propose d’utiliser des mo-dèles de régression (linéaire, logistique multinomial, etc...) en fonction du type de variables réponses et d’utiliser un test du rapport de vraisemblance.

Dépendance d’ordre

Pour résoudre la dépendance d’ordre de l’algorithme PC, différentes approches ont été proposées. Une amélioration majeure est celle proposée par Ramsey (Ramsey et al., 2006) : l’algorithmeconservativePC (CPC) détaillé dans l’algorithme 1.5. Le problème de dépen-dance d’ordre est illustré avec la figure 1.5, si une vraie arête est enlevée prématurément alors de fausses arêtes peuvent subsister dans le graphe final. A partir de la condition de Markov (cf définition 1.2.7), Ramsey propose deux implications : la fidélité adjacente7 et l’orientation fidèle8.

Définition 1.3.2. Fidélité adjacente

Soit un ensemble de variables V dont la structure est représentée par le DAG G. Si deux variablesXi, Xj sont adjacentes dansG alors elles sont dépendantes conditionnellement à n’importe quel sous ensemble deV\{Xi, Xj}.

Définition 1.3.3. Orientation fidèle

Soit un ensemble de variablesVdont la structure est représentée par le DAG G, et soit un triplet(Xi, Xj, Xk)non protégé dansG.

(O1) SiXi →Xj ←Xk, alorsXietXksont dépendants quelque soit le sous ensemble

V\{Xi, Xk}qui contientXj.

(O2) Sinon,Xi etXksont dépendants conditionnellement dans tous les sous ensembles

V\{Xi, Xk}qui ne contiennent pasXj.

Jusqu’à présent des triplets non protégés étaient identifiés commev-structuressans pour autant que Xi et Xk soient conditionnellement indépendants sachant tous les autres sous-ensembles ne contenant pas Xj (cf étape 2 de l’algorithme 1.3). Cela rendait certaines v-structure identifiées non conformes sur tous les sous-ensembles. Ramsey propose alors de modifier l’étape 2 de l’algorithme PC (détermination desv-structures) à partir des deux im-plications proposées. Les modifications interviennent donc aux étapes 2 et 3 de l’algorithme

7. Adjacency-Faithfulnessdans la littérature. 8. Orientation-Faithfulnessdans la littérature.

1.3. Apprentissage des réseaux Bayésiens 27 PC et sont résumées dans l’algorithme 1.5. La première étape est identique à l’algorithme PC original puis lors de la recherche desv-structures, l’algorithme enregistre pour tous les triplets(Xi, Xj, Xk), les sous-ensembles des possibles parents deXi etXk qui rendentXi

etXkconditionnellement indépendants (Xi⊥⊥Xk|adj(Xi)ouXi⊥⊥Xk|adj(Xk)). Pour tous ces sous-ensembles, le triplet(Xi, Xj, Xk)sera marqué commefidèles’il existe au moins un de ses sous ensembles et queXj est parmi chaque sous-ensemble ou dans aucun ; il sera noté non-fidèlesinon. Puis dans la dernière étape d’orientation des arêtes, seuls les tripletsfidèles seront orientés selon les règles de Meek (Meek, 1995b).

Algorithme 1.5 :Algorithme Conservative PC (CPC).

Entrées :DonnéesD ={X1, ..., Xp}, l’ensemble des noeudsVordonné, seuil de significativitéα

1 Identifier le squelette;

2 pour chaqueTriplet(Xi, Xj, Xk)faire

3 siXj ∈ {/ pa(Xi), adj(Xk)}avecXi⊥⊥Xk|adj(Xi)ouXi⊥⊥Xk|adj(Xk) alors

4 OrienterXi −−Xj −−Xk enXi →Xj ←Xksinon si

Xj ∈ {pa(Xi), adj(Xk)}avecXi⊥⊥Xk|adj(Xi)ouXi ⊥⊥Xk|adj(Xk) alors

5 le tripletXi −−Xj −−Xkest marqué commefidèlesinon

6 Marquer le triplet commenon-fidèle

7 fin

8 fin

9 fin

10 fin

11 Orienter les arêtes d’après les règles d’orientation uniquement aux triplets marqués fidèles;

Sortie :CPDAGGˆ

L’algorithme PC-stable a été proposé par Colombo (Colombo and Maathuis, 2014) pour palier cette dépendance d’ordre. La première étape de l’algorithme 1.6 PC-stable, avant de tester les indépendances conditionnelles d’une paire de variables à un niveaun, va stocker tous les noeuds adjacents à la paire dansadjsep. De ce fait, la délétion d’une arête n’affecte plus l’ensemble des dépendances conditionnelles testées pour les autres paires de variables pour un même niveau de cardinalitén. Autrement dit, à chaque niveaunles arêtes qui doivent être enlevées sont enregistrées durant toute la recherche à ce niveaunet ne sont supprimées qu’après le passage à un niveau de cardinalité n + 1. Les auteurs ont également modifié l’étape 2 de l’algorithme PC sur les mêmes principes que l’algorithme CPC.

Algorithme 1.6 :Étape 1 de l’algorithme PC-stable.

Entrées :DonnéesD ={X1, ..., Xp}, l’ensemble des noeudsVordonné, seuil de significativitéα

1 Former le graphe complet non dirigéGà partir de l’ensembleV;

2 n =−1;

3 répéter

4 n =n+ 1;

5 pour tous lesles arêtes deXi dansGfaireadjsep(Xi) =adj(Xi,G);

6 répéter

7 Sélectionner une paire de variables adjacentesXietXj dansGtel que

|adjsep(Xi)\ {Xj}| ≥n

8 répéter

9 Sélectionner un sous ensembleS⊆adj(Xi,G)\ {Xj}avec|S|=n;

10 siXi⊥⊥Xj|S alorsSupprimerXi −−Xj dansG;

11 sep(Xi, Xj) =sep(Y, X) =S;

12 jusqu’àce queXi etXj ne sont plus adjacents dansGou tous les ensembles S⊆adjesep(Xi)\ {Xj}avec|S|=nsoient testés pour lad-séparation;

13 jusqu’àce que toutes les paires adjacentes(Xi, Xj)dansGavec

|adjsep(Xi)\ {Xj}| ≥nsoient testées;

14 jusqu’àToutes les paires adjacentes(Xi, Xj)dansG satisfassent

|adjsep(Xi)\ {Xj}| ≤n;

Sorties :GrapheGˆ, l’ensemble des noeudssepqui satisfont lad-séparation

1.3.3 Méthodes hybrides

Les méthodes hybrides sont constraint-based, le squelette est appris à partir des tests d’indépendances conditionnelles et score-based, où le score est recherché en restreignant l’ensemble des arêtes au squelette estimé. Un des premiers algorithmeshybride, développé par Singh (Singh and Valtorta, 1993, 1994) dans lequel ils recherchaient l’ordre des variables en utilisant des tests d’indépendances conditionnelles pour appliquer ensuite l’algorithme K2. L’algorithme BENEDICT (Acid and de Campos, 1996; Acid and De Campos, 2000, 2001) qui calcule les différences entre chaque graphe candidat et les données en utilisant le score Kullback-Leibler. Deux autres exemples sont les algorithmes Sparse candidate (SC) de Friedman (Friedman et al., 1999) et l’algorithme Max-Min-Hill-Climbing (MMHC) de Tsamardinos (Tsamardinos et al., 2006).

Ces algorithmes peuvent être appliqués sur des graphes avec plusieurs milliers de va-riables. Ils consistent en deux étapes dites derestrictionet demaximisation. Dans l’étape de restriction, un ensemble de parents candidats Ci ⊂ V est déterminé pour chaque variable

1.3. Apprentissage des réseaux Bayésiens 29

Xiréduisant ainsi l’espace de recherche. Dans l’étape demaximisation, une recherche glou-tonnehill climbing est effectuée en se limitant aux ensemblesCi. Dans l’algorithmeSparse Candidate, ces deux étapes sont effectuées de façon itérative alors que dans le MMHC elles ne sont effectuées qu’une seule fois. La méthode MMHC décrite dans 1.7 commence avec l’apprentissage de la structure et des sous ensembles parents-enfants (P Ci) pour chaque va-riable Xi en testant les indépendances conditionnelles avec la méthode MMPC (Max-Min Parents and Children) (Tsamardinos et al., 2003). Puis, à partir des ensemblesP Ci, une re-cherche gloutonnehill climbingest effectuée limitant ainsi le nombre de graphes candidats à tester.

Algorithme 1.7 :Algorithme Max-Min Hill-Climbing (MMHC). Entrées :DonnéesD ={X1, ..., Xp}

1 Restriction;

2 pourtoutes les variablesX faire

3 P Ci =M M P C(Xi,D)

4 fin

5 Maximisation;

6 Commençant par un graphe vide, exécuter une recherche typehill-climbingen ne testant l’addition de flèchesXi →Xj que siXi ∈P Ci;

Sortie :DAGGˆ

L’algorithme hybride l’ARGES (Adaptively Restricted GES), est une modification de l’algorithme GES proposé par Nandy (Nandy et al., 2015) dans lequel, après avoir trouvé l’ensemble des parents candidatsCi, une recherche gloutonne équivalente (GES) est réalisée, donnant en sortie un CPDAG et non un DAG.

1.3.4 Cas des variables latentes

L’apprentissage de structures à partir de données observationnelles, repose sur l’hypo-thèse que toutes les variables d’intérêts sont mesurées. S’il existe des variables latentes (non mesurées), une classe de modèles graphiques proche des DAGs permet de modéliser les re-lations entre les variables observées et les variables latentes. Ces graphes sont ditsMaximal ancestral graph (MAG) ou graphe ancestral maximum. A l’instar des DAGs, les dépen-dances des MAGs peuvent être lues graphiquement à l’aide d’un critère dit dem-séparation, qui est une généralisation du concept ded-séparation. De même que pour les CPDAGs qui représentent des DAGs de classe Markov équivalente, le PAG (Partial ancestral graph) ou graphe ancestral partiel représente laclasse Markov équivalentedes MAGs (Zhang, 2008a;

Richardson and Spirtes, 2002). Les algorithmes qui permettent de retrouver ces structures sont le FCI (Fast causal inference) (Spirtes et al., 1999, 2000). L’algorithme FCI est une adaptation de l’algorithme PC comprenant plus de tests d’indépendances conditionnelles et plus de règles d’orientations (Zhang, 2008b). Des adaptations du FCI ont été développées dans un contexte de grande dimension (Claassen, 2013; Colombo et al., 2012).

1.3.5 Apprentissage actif

Jusqu’à présent, j’ai présenté des algorithmes d’apprentissage appliqués sur des données observationnelles. Cependant il est possible d’avoir à la fois des données observationnelles et des données issues d’expérimentation. L’apprentissage actif ou active learning a été dé-crit pour les réseaux Bayésiens (Tong and Koller, 2001; Murphy, 2001). Selon Pearl (Pearl, 2009), un réseau Bayésien peut être vu comme un modèle causal (cf chapitre 2) et sous cette perspective le réseau Bayésien peut être utilisé pour répondre à des requêtes interven-tionnelles après avoir spécifié les valeurs de certaines variables. C’est à dire que pour un sous-ensemble de variablesQissues de données expérimentales, on peut choisir une réalisa-tion quelconqueqdeQ(appeléerequête). La réponse donnée par cetterequêteest interprétée comme le résultat d’une intervention. Le principe de ces méthodes est donc à partir des don-nées expérimentales, de choisir activement les expérimentations qui permettront de mieux apprendre la structure. Les méthodes proposées par Tong et Murphy étaient principalement pour des RBs avec des variables discrètes. Pour les réseaux Bayésiens gaussiens, d’autres méthodes ont été décrites dans (Hauser and Bühlmann, 2014; Nuel et al., 2013; Cho et al., 2016).

1.4 Critères d’évaluations

La comparaison de méthodes d’apprentissages repose sur des critères d’évaluation de nature différente : i) les distributions des réseaux Bayésiens estimés et théoriques peuvent être comparées, ii) les structures des graphes estimés et théoriques peuvent être également comparées ; iii) dans une approche mixte, les propriétés inférentielles peuvent être comparées (Nguyen, 2012; Singh et al., 2017).

1.4. Critères d’évaluations 31

1.4.1 Comparaison des distributions

Méthode du score

Le score permet d’évaluer la qualité d’un graphe appris en comparant le score du réseau Bayésien théorique(G0)et celui estimé( ˆG), celui-ci est bon si S( ˆG,D) ' S(G0,D). Cette méthode prend en compte laclasse équivalente de Markov. Pour un faible nombre d’observa-tions, des scores peuvent être équivalents sans pour autant appartenir à laclasse équivalente de Markov.

Divergence de Kullback-Leibler

La divergence de Kullback-Leibler mesure la différence entre deux distributions de pro-babilités (Kullback and Leibler, 1951). Pour des variables discrètes, elle est définie par :

DKL( ˆG,G0) = X x∈X

PGˆ(x)log PGˆ(x)

PG0(x). (1.23) A l’instar de la méthode des scores, elle prend en compte laclasse équivalente de Markov.

1.4.2 Comparaison de la structure des graphes

Sensibilité-spécificité

Les performances d’un test diagnostic sont évaluées en termes de sensibilité9 et de spé-cificité10. Il s’agit ici de comparer les vraies présences et les vraies absences d’arêtes. On définit la sensibilité comme la proportion de flèches détectées parmi les vraies flèches et la spécificité comme la proportion d’absence de flèches détectées comme vraies absences de flèches. Pour calculer la sensibilité (Se) et la spécificité (Sp) il nous faut d’abord calculer les entités suivantes :

• VP (vrai positif) : nombre de flèches présentes dansGˆetG0,

• FP (faux positif) : nombre de flèches présentes dansGˆmais pas dansG0,

• VN (vrai négatif) : nombre de flèches absentes deGˆetG0,

• FN (faux négatif) : nombre de flèches absentes deGˆmais pas dansG0. Puis la sensibilité et spécificité sont calculées comme :

9. Sensibilité : capacité du test à détecter les vrais malades.

Se= V P

V P +F N, (1.24)

Sp= V N

V N +F P. (1.25)

La sensibilité et la spécificité caractérisent donc les capacités d’identifier les vraies dépen-dances et indépendépen-dances d’un algorithme. Ce sont des indices qui sont faciles à calculer, cependant si c’est une comparaison de CPDAG, ces indices ne tiennent pas compte de la classe équivalente de Markovcar une arête bidirigée sera comptée comme deux flèches diri-gées et augmentera donc le nombre de FP.

Distance de Hamming

Un autre indice qui permet de mesurer la différence entre la structure apprise et la struc-ture théorique est la distance de Hamming (Acid and De Campos, 2003). Cette distance permet de quantifier la différence entre le DAG estimé et le DAG théorique. Une version de cette distance, la Structural Hamming Distance (SHD) qui prend en compte la classe équivalente de Markov a été proposée par : (Tsamardinos et al., 2006) et est décrite dans l’algorithme 1.8.

Algorithme 1.8 :Distance structurelle de Hamming (SHD). Entrées :Deux CPDAGsGˆetG0

1 shd= 0;

2 pour chaquearêtesAdifférentes dansGˆetG0 faire

3 siAn’est pas dansGˆalors shd=shd+ 1;

4 siAn’est pas dansG0 alors shd=shd+ 1;

5 siAest mal orienté dansGˆpar rapport àG0alors shd=shd+ 1;

6 fin

Sortie :shd

Cet indice est complémentaire de la sensibilité-spécificité car il décrit les erreurs graphiques.

Exemple. Dans la figure 1.6, les mesures de SHD, Se et Sp sont données par

• PourGˆ1 :SHD(G0,Gˆ1) = 2, Se(G0,Gˆ1) = 50%et Sp(G0,Gˆ1) = 0%

• PourGˆ2 :SHD(G0,Gˆ2) = 1, Se(G0,Gˆ2) = 50%et Sp(G0,Gˆ2) = 100%

1.4. Critères d’évaluations 33 Un même indice de SHD peut décrire plusieurs CPDAGs avec des sensibilités et spécificités différentes.

A B

C

(a)Vrai CPDAGG0

A B C (b)CPDAGGˆ1 A B C (c)CPDAGGˆ2 A B C (d)CPDAGGˆ3