• Aucun résultat trouvé

6.5.2 R´esultats

Tout d’abord nous consid´erons les r´esultats des m´ethodes hybrides. L’algorithme BN-PC-B

pr´esente les plus mauvais r´esultats, que ce soit en termes de sensibilit´e ou de ppv. Son

ini-tialisation, r´ealis´ee avec la m´ethode de l’arbre de recouvrement maximum, produit un arbre

orient´e qui ne permet pas d’approcher pr´ecis´ement la structure objectif. On peut supposer que

les tests d’ind´ependances conditionnelles qui s’en suivent ne parviennent pas `a identifier les arcs

manquants ou surnum´eraires, probablement du fait de la faible quantit´e de donn´ees utilis´ees

pour r´ealiser ces tests. L’algorithme MMHC, qui est fond´e sur le mˆeme principe de recherche

des ind´ependances conditionnelles, a ´egalement unesensibilit´e m´ediocre. Il pr´esente par contre

une ppv relativement ´elev´ee. Manifestement, la seconde phase de cet algorithme (qui repose

sur une recherche gloutonne) permet de produire nettement moins de faux positifs,

notam-ment en assurant une meilleure orientation des arcs identifi´es. Bien sˆur, un meilleur r´eglage du

146

R´esultats num´eriques Chapitre 6

seuil de confiance utilis´e pour les tests d’ind´ependances conditionnelles devrait nous permettre

d’am´eliorer ces r´esultats. Par exemple, un seuil de confiance plus faible devrait nous permettre

d’´eliminer un certain nombre de faux positifs, mais au prix d’une perte de sensibilit´e.

Toute-fois, avec le param`etrage que nous avons propos´e, ces deux algorithmes sont d´epass´es par les

m´ethodes d’exploration de l’espace des DAG (exception faite de MMHC pour la ppv).

Parmi les diff´erentes heuristiques de recherche, l’algorithme de mont´ee de colline donne les

plus mauvais r´esultats, que ce soit en termes de sensibilit´e ou de ppv. En effet, il s’agit d’une

heuristique d´eterministe qui converge vers le maxima local le plus proche de la solution que

nous g´en´erons al´eatoirement `a l’initialisation. L’algorithme MCMC, qui repose sur une

heuris-tique stochasheuris-tique donne de meilleurs r´esultats. Toutefois, si l’on consid`ere la variabilit´e de ces

m´ethodes, nous notons que les performances de la recherche gloutonne et de l’algorithme MCMC

sont relativement proches.

En revanche, l’algorithme g´en´etique, qui surpasse l´eg`erement MCMC en termes de

sensibi-lit´e, donne des r´esultats tr`es sup´erieurs `a la recherche gloutonne et `a MCMC en termes deppv.

Il est vrai que les courbes de performance de l’algorithme MCMC d´ependent de la valeur du

seuil `a partir duquel on consid`ere que la fr´equence d’un arc parmi les 4 000 DAG g´en´er´es est

suffisante pour l’inclure dans le graphe consensus. Ce param`etre que nous avons ici fix´e

arbitrai-rement `a 50% rend plus difficile la comparaison de MCMC avec d’autres m´ethodes. L’utilisation

de courbes ROC, visant `a trouver le seuil donnant le meilleur compromis entre sensibilit´e et

ppv est ici difficile `a mettre en œuvre. En effet, les r´esultats obtenus d’une base d’apprentissage

`

a l’autre pr´esentent trop de variabilit´e pour qu’un param`etre de seuil optimal puisse ´emerger.

Toutefois, le large ´ecart entre les courbes deppv de l’algorithme g´en´etique et du MCMC semble

garantir la pr´edominance du premier sur le second.

Finalement, l’algorithme K2 est le seul qui surpasse l’AG en termes de ppv. Cela ´etait

pr´evisible car K2 g´en`ere naturellement moins de faux positifs que les autres m´ethodes. En

effet, l’information a priori est particuli`erement pr´ecieuse lorsque l’on apprend `a partir d’un

petit nombre d’exemples et grˆace `a l’ordre topologique que nous lui avons fourni, K2 r´ealise la

recherche dans un espace des solutions plus petit comprenant un nombre d’arcs restreint. Malgr´e

cela, les performances de K2 concernant la sensibilit´e sont disput´ees par l’AG pour des tailles

d’´echantillons sup´erieures `a 200.

Comme l’ont montr´e Leray et Francois [FL04], utiliser un arbre g´en´er´e par la m´ethode de

Chow et Liu pour initialiser l’algorithme de mont´ee de colline aurait permis d’am´eliorer

si-gnificativement les solutions g´en´er´ees par ce dernier. Cependant, pour ˆetre juste, il faudrait

alors proposer des m´ethodes d’initialisation similaires pour les autres heuristiques. Cela

de-vient probl´ematique pour l’algorithme ´evolutionnaire qui est initialis´e avec une population de

solutions. Il est envisageable d’utiliser l’algorithme MCMC pour g´en´erer un ´echantillon de

so-lutions prometteuses `a soumettre `a l’algorithme ´evolutionnaire. La difficult´e qui apparaˆıt alors

est d’ordre purement calculatoire, les temps de calcul cumul´es de ces deux algorithmes rendant

cette approche difficilement exploitable dans un cadre exp´erimental (lorsqu’un grand nombre de

tests sont requis).

Pour finir, pr´ecisons que le nombre d’´evaluations de la fonction objectif (le score BIC) r´ealis´e

par l’algorithme MCMC, l’algorithme de mont´ee de colline et l’algorithme g´en´etique, est de

l’ordre de quelques dizaines de milliers pour toutes ces m´ethodes. Dans la mesure o`u le calcul

de la fonction objectif accapare l’essentiel du temps de calcul d’un algorithme de recherche,

147

Troisi`eme partie Apprentissage ´evolutionnaire des r´eseaux Bay´esiens

nous pouvons donc dire que ces trois algorithmes ont des coˆuts de calcul du mˆeme ordre. Leur

comparaison paraˆıt donc fond´ee. Les autres algorithmes ´etant d´eterministes, leur coˆut de calcul

importe peu. En effet, mˆeme si K2 ou MMHC sont nettement moins coˆuteux que les algorithmes

que nous venons de citer, il n’est pas possible de recourir `a un proc´edure d’initialisation multiple.

Fig. 6.2 – Repr´esentation des populations successives d’un AE utilisant la recombinaison

rela-tionnelle par Sammon-mapping. Ces figures montrent l’´evolution de la distribution de la

popu-lation au cours d’un AE utilisant la recombinaison relationnelle (avec un taux d’´echange de

0,4) avec niching (A1-A3) et sans niching (B1-B3). Les populations de DAG ont ´et´e enregistr´ees

toutes les 10 000 g´en´erations jusqu’`a la g´en´eration 50 000. Chaque figure compare la r´epartition

des DAG appartenant `a une population donn´ee `a celle des DAG issus des populations suivantes.

Les DAG de ces populations sont repr´esent´es sous la forme de points sur une carte 2D grˆace `a

l’utilisation duSammon-mapping.

Fig.6.3 – Repr´esentation des populations successives d’un AE utilisant la recombinaison

paren-tale par Sammon-mapping. Ces figures montrent l’´evolution de la distribution de la population

au cours d’un AE utilisant la recombinaison parentale (avec un taux d’´echange de 0,1) avec

niching (A1-A3) et sans niching (B1-B3). Les populations de DAG ont ´et´e enregistr´ees toutes les

10 000 g´en´erations jusqu’`a la g´en´eration 50 000. Chaque figure compare la r´epartition des DAG

appartenant `a une population donn´ee `a celle des DAG issus des populations suivantes. Les DAG

de ces populations sont repr´esent´es sous la forme de points sur une carte 2D grˆace `a l’utilisation

Fig. 6.4 – Repr´esentation des populations successives d’un AE utilisant la recombinaison

rela-tionnelle par KPCA. Ces figures montrent l’´evolution de la distribution de la population au cours

d’un AE utilisant la recombinaisonrelationnelle(avec un taux d’´echange de 0,4) avec niching

(A1-A4) et sans niching (B1-B4). Les populations de DAG ont ´et´e enregistr´ees toutes les 2 000

g´en´erations ainsi qu’apr`es convergence de l’algorithme. Chaque figure repr´esente les graphes

is-sus de deux populations enregistr´ees cons´ecutivement avec un pas de 2 000. Les graphes de ces

deux populations sont repr´esent´es sous la forme de points sur une carte 2D grˆace `a l’utilisation

de l’Analyse en Composantes Principales Kernelis´ee.

Fig. 6.5 – Repr´esentation des populations successives d’un AE utilisant la recombinaison

pa-rentale par KPCA. Ces figures montrent l’´evolution de la distribution de la population au cours

d’un AE utilisant la recombinaison parentale (avec un taux d’´echange de 0,4) avec niching

(A1-A4) et sans niching (B1-B4). Les populations de DAG ont ´et´e enregistr´ees toutes les 2 000

g´en´erations ainsi qu’apr`es convergence de l’algorithme. Chaque figure repr´esente les graphes

is-sus de deux populations enregistr´ees cons´ecutivement avec un pas de 2 000. Les graphes de ces

deux populations sont repr´esent´es sous la forme de points sur une carte 2D grˆace `a l’utilisation

de l’Analyse en Composantes Principales Kernelis´ee.

Fig.6.6 – Comparaison des courbes d’apprentissage obtenues avec les recombinaisons parentale

et relationnelle. Pour chaque algorithme d’apprentissage, les r´esultats de la comparaison entre

graphe appris et graphe de r´ef´erence sont exprim´es en termes de valeur de pr´ediction positive

(A1 et A2) et desensibilit´e(B1 et B2). Les sous-figures A1 et B1 montrent les r´esultats obtenus

sans niching, alors que les sous-figures A2 et B2 montrent les r´esultats obtenus avec niching. Le

codage des couleurs est bleu pour la recombinaison parentale et rouge pour la recombinaison

par lien. Pour chaque taille d’´echantillon, les tests sont r´ep´et´es sur 10 bases d’apprentissages

distinctes et ind´ependantes. Les mˆemes jeux de donn´ees sont utilis´es pour tous les AE. Chaque

point sur les courbes correspond `a une taille d’´echantillon donn´ee et repr´esente la valeur moyenne

ainsi que l’´ecart-type de la mesure de qualit´e consid´er´ee sur les 10 ex´ecutions de l’algorithme.

Fig. 6.7 – Comparaison des courbes d’apprentissage pour six m´ethodes d’apprentissages

dis-tinctes. Pour chaque algorithme d’apprentissage, les r´esultats de la comparaison entre graphe

appris et graphe de r´ef´erence sont exprim´es en termes devaleur de pr´ediction positive (A) et de

sensibilit´e (B). Le codage des couleurs est magenta pour BN-PC, vert pour la recherche

glou-tonne, bleu pour l’algorithme MCMC, noir pour l’algorithme K2, pointill´e-noir pour MMHC

et rouge pour l’algorithme g´en´etique. Pour chaque taille d’´echantillon, les tests sont r´ep´et´es

sur 10 bases d’apprentissages distinctes et ind´ependantes. Les mˆemes jeux de donn´ees sont

uti-lis´es pour tous les algorithmes d’apprentissage. Chaque point sur les courbes correspond `a une

taille d’´echantillon et repr´esente la valeur moyenne ainsi que l’´ecart-type de la mesure de qualit´e

consid´er´ee sur les 10 ex´ecutions de l’algorithme.

Chapitre 7