Sensibilit´e Egalement appel´ee´ pr´ecision, lasensibilit´e est ´egale `a
tp+f ntp.
Valeur de pr´ediction positive G´en´eralement not´eeppv,valeur de pr´ediction positive est ´egale
`
a
tp+f ptp.
Sp´ecificit´e Egalement appel´ee´ rappel, lasp´ecificit´e est ´egale `a
tn tn+f p.
Toutefois dans cette ´etude, lasp´ecificit´e apparaˆıt comme une m´etrique peu pertinente.
L’intro-duction d’une borne sup´erieure sur le degr´e entrant des nœuds du r´eseau, au mˆeme titre que
la contrainte sur la complexit´e pr´esente au sein du BIC, garantissent la g´en´eration de solutions
parcimonieuses. Dans la mesure o`u le graphe de r´ef´erence comme les graphes appris pr´esentent
un faible nombre d’arcs, le nombre de vrais n´egatifs est toujours ´elev´e en comparaison du nombre
total de n´egatifs (tn+f p), donc la sp´ecificit´e n’est pas discriminante.
Le temps de calcul ne nous a pas sembl´e ˆetre un crit`ere d’´evaluation fondamental pour cette
´etude. Lorsque nous r´ealisons une comparaison entre diff´erentes m´ethodes d’apprentissage, il est
certes naturel de mettre en relief leurs temps de calcul respectifs. Dans le cas d’heuristiques
sto-chastiques ces derniers sont g´en´eralement ´elev´es. Sous Matlab, plusieurs heures sont n´ecessaires
pour ex´ecuter un algorithme g´en´etique ou un algorithme MCMC sur des syst`emes comportant
quelques dizaines de variables. Cependant, compar´e au temps n´ecessaire aux biologistes pour
g´en´erer des donn´ees, cela semble n´egligeable. En effet, apr`es plusieurs mois d’exp´erimentation,
le fait qu’un algorithme mette quelques minutes ou quelques heures pour proposer une hypoth`ese
de r´eseau de r´egulation `a partir des donn´ees obtenues importe peu. D’autant plus que le temps
n´ecessaire `a la validation des r´esultats et `a leur interpr´etation peut ´egalement n´ecessiter
plu-sieurs semaines. Typiquement, les influences r´egulatrices repr´esent´ees au sein de la structure
du mod`ele appris doivent ˆetre confront´ees `a la litt´erature et les plus int´eressantes doivent ˆetre
test´ees au moyen d’exp´eriences suppl´ementaires. Il est donc possible de se montrer plus tol´erant
face au temps de calcul cons´equent des algorithmes ´evolutionnaires que dans d’autres domaines
d’applications.
Nous avons donc choisi d’´evaluer la qualit´e des diff´erentes approches d’apprentissage en nous
r´ef´erant `a la sensibilit´e et la ppv des structures de mod`eles appris. Bien sˆur, l’inconv´enient
majeur d’un algorithme stochastique r´eside dans la variabilit´e des solutions qu’il propose `a
l’issue de diff´erentes ex´ecutions. Tous les tests ont donc ´et´e r´ep´et´es afin de rendre compte du
comportement moyen des algorithmes ´etudi´es. Au final, nous souhaitons apprendre des r´eseaux
fid`eles `a l’original ayant une bonnesensibilit´e (capacit´e `a d´ecouvrir des interactions) mais aussi
et surtout une bonneppv afin de limiter les faux positifs. En effet, une sensibilit´e ´elev´ee, si elle
s’accompagne de nombreux faux positifs, est de peu d’int´erˆet car les interactions propos´ees par
le mod`ele ´etant fausses pour la plupart, il est difficile de les tester et de les confirmer au moyen
d’exp´eriences compl´ementaires. S’il est ind´eniable que les biologistes sont prˆets `a accepter une
faible proportion d’erreurs afin de faire des d´ecouvertes, il est fondamentale que ces derni`eres
ne soient pas noy´ees parmi les faux positifs. Comme nous le verrons par la suite les m´ethodes
d’apprentissage tendent `a founir un taux ´elev´e de faux positifs.
6.3 Comparaison de diff´erentes approches ´evolutionnaires
Dans un premier temps, nous ´etudions les performances de l’algorithme ´evolutionnaire d´ecrit
pr´ec´edemment selon la strat´egie de recombinaison et la m´ethode de pr´eservation de la diversit´e
136
R´esultats num´eriques Chapitre 6
utilis´ees. Tout d’abord, nous avons compar´e l’effet de la mutation et celui du deterministic
crowding pour diff´erentes strat´egies de reproduction. Plus pr´ecis´ement, nous avons ´etudi´e le
comportement des trois strat´egies de reproduction pr´esent´ees au chapitre pr´ec´edent, en faisant
varier le taux d’´echange pour les recombinaisons relationnelles et parentales. Ce taux d’´echange
permet de param´etrer le nombre de g`enes virtuels ´echang´es entre deux chromosomes par la
recombinaison uniforme. Puisque nous n’´etions pas int´eress´e par un r´eglage pr´ecis de ce
pa-ram`etre, nous avons simplement consid´er´e un taux d’´echange bas (0,1) et ´elev´e (0,4). Nous
avons ´egalement consid´er´e une faible probabilit´e de mutation de 0,002 impliquant de l’ordre de
2 arcs modifi´es par DAG. Nous avons travaill´e sur des populations de taille relativement limit´ee
(en comparaison de la taille de l’espace des solutions) de 200 DAG. Enfin, l’algorithme s’arrˆete
lorsque le meilleur score de la population ne montre aucune am´elioration durant au moins 1 000
it´erations. Nous avons en plus impos´e un nombre maximum de 50 000 it´erations. Nous rappelons
que cet algorithme ne produit que deux solutions candidates par it´eration, c’est pourquoi ces
derni`eres sont si nombreuses.
Chaque test a ´et´e effectu´e 10 fois, en s’appuyant sur des jeux de donn´ees distincts et ind´ependants
pour juger de la robustesse des diff´erentes approches ´evolutionnaires. Pour tenir compte de la
disponibilit´e des donn´ees biologiques (qui sont des instantan´es de l’activit´e transcriptionnelle des
cellules) nous avons consid´er´e des ´echantillons de faible taille (300 mesures). Nous consid´ererons
cependant des tailles d’´echantillon variables dans un second temps.
Lasensibilit´e et lappv que nous avons obtenues pour chaque test sont repr´esent´ees dans les
tables 6.1 et 6.2, respectivement. Ces r´esultats correspondent `a la moyenne et `a l’´ecart-type de
chacun de ces indices de qualit´e sur les 10 ex´ecutions r´ealis´ees pour chaque test. Pour favoriser
la lisibilit´e, ces r´esultats ont ´et´e exprim´es en termes de pourcentage et arrondis `a l’entier le plus
proche.
Les lignes correspondent aux strat´egies de recombinaison : recombinaison relationnelle (lignes
1 et 2), recombinaison parentale (lignes 3 et 4), recombinaison classique (lignes 5). Pour les
recombinaisons relationnelles et parentales, deux lignes sont disponibles puisque le croisement
uniforme sur lequel elles reposent est test´e pour un taux d’´echange ´elev´e (lignes 1 et 3) et faible
(lignes 2 et 4). Les colonnes correspondent aux diverses techniques de pr´eservation de la
diver-sit´e utilis´ees dans chaque test. Nous comparons les cas o`u aucune de ces techniques n’est utilis´ee
(colonne 1), o`u seulement l’une des deux est utilis´ee (colonne 2 pour la mutation et colonne 3
pour DC) et o`u les deux sont utilis´ees simultan´ement (colonne 4).
Lorsque nous consid´erons la premi`ere colonne des tables 6.1 et 6.2, nous constatons qu’en
l’absence de m´ethode de pr´eservation de la diversit´e (colonne 1), deux tendances ´emergent. En
premier lieu, pour les recombinaisons relationnelles et parentales, les r´esultats s’av`erent meilleurs
pour un taux d’´echange ´elev´e. Cela ´etait pr´evisible dans la mesure o`u un taux d’´echange plus
´elev´e favorise un m´elange plus important des g`enes virtuels entre mod`eles candidats.
L’explo-ration de l’espace de recherche s’en trouve acc´el´er´ee du fait de la g´en´eL’explo-ration d’une plus grande
vari´et´e de mod`eles candidats. Dans un second temps, si l’on consid`ere le taux d’´echange ´elev´e,
la recombinaison relationnelle surpasse la recombinaison parentale qui, `a son tour, fonctionne
nettement mieux que la recombinaison classique. En effet, la recombinaison relationnelle
pra-tique la recombinaison `a un niveau plus fin (interactions ´el´ementaires) que les deux autres qui
manipulent d’un bloc de larges sous-ensembles d’(in)d´ependances conditionnelles. Cela permet
`
a l’algorithme g´en´etique de s’´echapper plus facilement d’un optimum local pour atteindre de
meilleures r´egions de l’espace de recherche avant d’ˆetre pi´eg´e par l’homog´en´eisation pr´ematur´ee
de l’algorithme. Cela laisse ´egalement supposer que notre hypoth`ese concernant les briques de
137
Troisi`eme partie Apprentissage ´evolutionnaire des r´eseaux Bay´esiens
Tab.6.1 – Moyenne±´ecart-type de lasensibilit´e(×100) : comparaison de diff´erentes strat´egies
d’´evolution - 10 ex´ecutions. DC = Deterministic Crowding ; Mut = Mutation ; NoDC = pas de
Deterministic Crowding ; NoMut = pas de Mutation.
Recombinaison NoDC/NoMut NoDC/Mut DC/NoMut DC/Mut
Recomb. Relationnelle - ´Elev´ee 43±4 61±6 63±3 68±4
Recomb. Relationnelle - Faible 18±7 42±8 68±4 68±4
Recomb. Parentale - ´Elev´ee 23±7 56±7 48±3 66±4
Recomb. Parentale - Faible 12±5 33±6 61±4 60±2
Recomb. Classique 12±4 43±7 43±5 59±7
Tab. 6.2 – Moyenne ± ´ecart-type de la PPV (×100) : comparaison de diff´erentes strat´egies
d’´evolution - 10 ex´ecutions. DC = Deterministic Crowding ; Mut = Mutation ; NoDC = pas de
Deterministic Crowding ; NoMut = pas de Mutation.
Recombinaison NoDC/NoMut NoDC/Mut DC/NoMut DC/Mut
Recomb. Relationnelle - ´Elev´ee 61±12 58±8 84±5 74±8
Recomb. Relationnelle - Faible 18±8 22±8 82±9 80±6
Recomb. Parentale - ´Elev´ee 26±8 38±4 68±10 69±6
Recomb. Parentale - Faible 12±5 14±4 79±6 63±7
Recomb. Classique 12±5 21±4 62±7 52±11
R´esultats num´eriques Chapitre 6
base des solutions recherch´ees est soit fausse soit mal exploit´ee par les m´ethodes de
recombinai-son propos´ees. Dans le cas de la recombinairecombinai-son parental, cela peut s’expliquer par le fait que les
parent´es des sommets du DAG qui constituent nos briques de base n’´evoluent pas ou tr`es peu
sous l’effet de la recombinaison (la r´eparation apportant quand mˆeme quelques modifications).
En comparant les colonnes 1 et 2 des tables 6.1 et 6.2, il apparaˆıt que les pr´ec´edentes
ob-servations concernant la comparaison des strat´egies de recombinaison demeurent valides en
pr´esence de l’op´erateur de mutation. Cependant, alors que la ppv (table 6.2) reste stable, la
sensibilit´e (table 6.1) augmente significativement pour toutes les strat´egies de recombinaison.
L’am´elioration apport´ee par la mutation est particuli`erement importante pour les m´ethodes de
recombinaison les moins efficaces. En effet, la mutation modifie les larges sous-chaˆınes ´echang´ees
entre chromosomes classiques et les listes parentales constituant les g`enes virtuels des
chro-mosomes parentaux. Elle permet donc `a l’algorithme de s’´echapper des minima locaux o`u ces
m´ethodes de recombinaison ont tendance `a converger du fait de leur nature conservatrice. De la
mˆeme mani`ere, on remarquera que pour les recombinaisons fond´ees sur le croisement uniforme,
cette am´elioration est plus importante pour un faible taux d’´echange. La mutation permet
d’ob-tenir de nouvelles topologies de graphes qui n’auraient pu ˆetre prises en consid´eration du fait
de la lenteur du m´elange des g`enes virtuels r´esultant de ce param´etrage. Il est par contre plus
difficile d’expliquer pourquoi la mutation am´eliore plus particuli`erement la ppv. L’hypoth`ese la
plus probable est que du fait de d´ependances fortes entre les g`enes virtuels, il est difficile
d’iden-tifier de nouveaux arcs du DAG de r´ef´erence au moyen de modifications ´el´ementaires des DAG
candidats. Il peut ˆetre n´ecessaire de consid´erer l’introduction simultan´ee de plusieurs arcs ayant
un rˆole commun dans le mod`ele (repr´esentant des co-r´egulateurs d’un g`ene par exemple) pour
am´eliorer le score. Inversement, il est plus facile d’´eliminer un arc surnum´eraire, sa suppression
devant se traduire par une am´elioration de la performance du DAG mut´e.
Une simple comparaison entre les colonnes 2 et 3 nous montre que remplacer la mutation par
le DC am´eliore fortement les r´esultats. On constate une augmentation de la sensibilit´e pour les
recombinaisons relationnelles et parentales ayant un faible taux d’´echange alors que les autres
strat´egies de recombinaison conservent des r´esultats similaires. Cependant, concernant la ppv,
toutes les strat´egies de recombinaison pr´esentent une importante am´elioration. De nouveau, ce
sont les m´ethodes de croisement les moins performantes qui b´en´eficient le plus de l’apport du
DC. Cette am´elioration tend `a effacer le diff´erentiel de performances pr´ec´edemment constat´e
entre ces diff´erentes strat´egies de recombinaison : lorsque le DC est appliqu´e, elles donnent
toutes des r´esultats satisfaisants. En l’occurrence, cette am´elioration s’explique par la capacit´e
du DC `a retarder l’homog´en´eisation de la population afin de pr´evenir la convergence pr´ematur´ee
de l’algorithme. Cela permet aux m´ethodes les moins performantes en termes de d´ecouverte de
nouvelles solutions candidates de poursuivre leur recherche vers de nouveaux minima.
Finalement nous avons ´etudi´e l’effet conjoint des deux techniques de pr´eservation de la
di-versit´e en comparant les colonnes 3 et 4. ´Etonnamment, alors que la mutation n’apporte qu’une
augmentation mod´er´ee de lasensibilit´e lorsqu’elle est ajout´ee au DC, nous observons ´egalement
une diminution de lappv pour certaines m´ethodes de recombinaison. Cependant, ces remarques
reposent surtout sur des tendances puisque, consid´erant la forte variabilit´e des r´esultats, la
plu-part de ces variations ne sont pas significatives.
Il doit ˆetre not´e que les diff´erentes approches ´evolutionnaires que nous venons de comparer ne
r´ealisent pas le mˆeme nombre d’´evaluations de la fonction objectif avant de converger. La
princi-139
Troisi`eme partie Apprentissage ´evolutionnaire des r´eseaux Bay´esiens
pale diff´erence est imputable auniching. Dans nos exp´eriences, un AE utilisant la recombinaison
relationnelle, un taux d’´echange ´elev´e, une faible probabilit´e de mutation et le deterministic
crowding r´ealise entre 40 000 et 50 000 ´evaluations du score BIC. Le mˆeme algorithme, priv´e de
deterministic crowding r´ealise entre 20 000 et 30 000 ´evaluations du score BIC. En somme, la
sp´eciation multiplie par deux le coˆut en termes de calcul. Cela n’est pas n´egligeable mais dans
la mesure o`u les valeurs pr´esent´ees dans les deux cas sont du mˆeme ordre, nous estimons que les
comparaisons r´ealis´ees sont justes. En effet, en l’absence de m´ecanisme de sp´eciation, recourir `a
une initialisation multiple n’a que peu d’int´erˆet : il suffit de r´ep´eter l’ex´ecution de l’algorithme
priv´e duniching une seule fois pour atteindre le mˆeme coˆut de calcul que lorsque leniching est
utilis´e.
Nous montrons qu’un taux de mutation mod´er´e est n´ecessaire au bon fonctionnement d’un
algorithme g´en´etique reposant sur un sch´ema de s´election ´elitiste. Cependant, le recours au
deterministic crowding — qui am´eliore sensiblement le processus d’apprentissage —
contreba-lance nettement l’absence totale de mutation. Par la suite, nous utiliserons conjointement ces
deux techniques. La recombinaison relationnelle avec un taux d’´echange ´elev´e est l’approche qui
a donn´e les meilleurs r´esultats `a travers les diff´erents tests. Nous avons donc choisi de nous
appuyer sur une recombinaison relationnelle ayant un taux d’´echange ´elev´e, ainsi que sur
l’uti-lisation conjointe de la mutation et dudeterministic crowding pour la suite de ce chapitre.
6.4 Visualiser l’effet du Deterministic Crowding sur la r´epartition
des DAG
Le comportement des algorithmes ´evolutionnaires est g´en´eralement analys´e `a travers le suivi
au cours du temps d’une m´etrique caract´erisant les individus de la population : le plus souvent,
il s’agit du meilleur score obtenu parmi les individus de la population rendant compte des
propri´et´es de convergence de l’algorithme. Pour ´etudier plus pr´ecis´ement l’effet du niching sur
le fonctionnement d’un AE, nous avons besoin de suivre les modifications survenant au sein de
la population au cours du processus d’´evolution. Il nous faut donc ˆetre capables de comparer les
structures candidates elles-mˆemes et pas seulement leurs indices de qualit´e tels que lappv ou la
sensibilit´e. Nous proposons de visualiser des graphes comme des points dans un espace `a deux
Dans le document
Approches évolutionnaires pour la reconstruction de réseaux de régulation génétique par apprentissage de réseaux bayésiens.
(Page 149-153)