a pr´esent d´efinirla vraisemblance du mod`ele,L(Θ), comme la probabilit´e d’observer les donn´ees
sachant le mod`ele (c’est-`a-dire sachant qu’elles suivent la loi jointe repr´esent´ee par le mod`ele) :
L(Θ) =P(D|Θ) =
m
Y
i=1
P(x
i|Θ) (4.3)
Pour aboutir `a cette factorisation, on fait l’hypoth`ese (tr`es classique en apprentissage) que les
donn´ees sont ind´ependantes et identiquement distribu´ees.
Le principe visant `a identifier les param`etres Θ
M Vmaximisant L(Θ) est appel´emaximum
de vraisemblance (MV). Dans la pratique, on cherchera g´en´eralement `a identifier les param`etres
maximisant la log-vraisemblance lnP(D | Θ), soit : Θ
M V= arg max
ΘlnP(D | Θ).
L’uti-lisation de la log-vraisemblance permet de simplifier les calculs et se justifie par le fait que
la fonction ln est une fonction convexe (et donc ln(f) a les mˆemes extrema que f). Il arrive
´egalement, que l’on pr´ef`ere exprimer le probl`eme sous la forme d’une minimisation de l’oppos´e
de la log-vraisemblance. Enfin, notons que cette approche ne fait pas intervenir d’a priori sur
les param`etres ´etudi´es.
4.2.2 L’approche Bay´esienne
Dans cette approche, on introduit une distributiona priori sur les param`etres. Celle-ci
per-met par exemple d’exploiter des connaissances (ind´ependantes des donn´ees d’apprentissage)
concernant le ph´enom`ene mod´elis´e afin de guider la recherche des param`etres. Lorsqu’on ne
dispose d’aucune hypoth`ese ou connaissance a priori, il est courant d’utiliser une distribution a
priori uniforme.
L’approche Bay´esienne consiste `a rechercher les param`etres maximisant la probabilit´e a
pos-teriori (MAP) des donn´ees. On cherche `a identifier Θ
M AP, le jeu de param`etres maximisant
la probabilit´e d’un mod`ele candidat, sachant les donn´ees qu’il est cens´e repr´esenter, soit :
Θ
M AP= arg max
ΘlnP(Θ|D).
En s’appuyant sur le th´eor`eme de Bayes, il est possible d’incorporer un a priori dans la
d´etermination des param`etres :
P(Θ|D) =P(D|Θ)·P(Θ)
P(D)
On constate que la probabilit´e a posteriori s’exprime comme le produit d’une vraisemblance et
d’une probabilit´ea priori (P(Θ)), le tout divis´e par une constante de normalisation. La
proba-bilit´e des donn´ees P(D) ´etant constante quel que soit le mod`ele trait´e, elle n’est pas prise en
compte dans le calcul de ce crit`ere.
4.3 Apprentissage de structure dans les r´eseaux Bay´esiens
L’apprentissage de structure est l’aspect le plus int´eressant des r´eseaux Bay´esiens en biologie
des syst`emes. Il s’agit d’une tˆache complexe qui n´ecessite le d´eveloppement d’algorithmes adapt´es
et puissants. Elle est particuli`erement difficile lorsque la quantit´e et la qualit´e des donn´ees
dis-ponibles est faible et que la conception des exp´eriences de puces `a ADN ne tient pas compte d`es
85
Deuxi`eme partie Apprentissage des r´eseaux de r´egulation g´en´etique
le d´epart de certains imp´eratifs de l’apprentissage statistique. Deux approches se partagent ce
champ d’investigation : les approchespar contraintes et la recherche de mod`eles fond´ee sur des
approches `a base de score, que nous avons privil´egi´ees. Avant de pr´esenter ces techniques nous
allons d’abord rappeler les notations de base utilis´ees dans ce document. Surtout, nous
rappelle-rons quelques principes et hypoth`eses (souvent implicites) sur lesquels se fondent l’inf´erence de
mod`eles.
4.3.1 Probl´ematique de l’apprentissage de r´eseaux de r´egulation et hypoth`eses
de travail
Notations Dans ce qui suit, les variables al´eatoires sont not´ees en majusculesA, B, . . . , Z. Les
valeurs prises par ces variables sont not´ees en minuscules a, b, . . . , z. D’une mani`ere g´en´erale,
les ensembles sont not´es en gras : qu’il s’agisse d’un ensemble de variables al´eatoires A =
{B, C, D, E} ou d’une instanciation de ce derniera={b, c, d, e}.
Le probl`eme d’apprentissage de structure Soit D un jeu de donn´ees correspondant `a
un ensemble d’observations ind´ependantes d’un syst`eme de r´egulation inconnu. On suppose que
ce r´eseau de r´egulation peut ˆetre d´ecrit par une distribution de probabilit´e jointe P(X) sur
une collection de variables al´eatoires repr´esentant les g`enes d’int´erˆet {X
1, X
2, . . . , Xn}. On
sup-pose ´egalement que les observations exp´erimentales constituent un ´echantillon repr´esentatif de
cette loi jointe. On se donne une famille d’hypoth`eses correspondant `a une classe de mod`eles
probabilistes, en l’occurrence des r´eseaux Bay´esiens B = (S,Θ), qui nous semble adapt´ee `a la
repr´esentation de la loi jointe. On souhaite identifier l’hypoth`ese (le mod`ele) repr´esentant le
plus fid`element possible la loi jointe dont sont issues les donn´ees. Le mod`ele ainsi s´electionn´e
doit permettre de d´ecrire le syst`eme de r´egulation observ´e. Plus pr´ecis´ement, c’est la structure
S de ce mod`ele qui nous int´eresse, ses param`etres Θ ´etant secondaires dans la repr´esentation
du r´eseau de r´egulation. Le probl`eme peut ˆetre pos´e d’une mani`ere plus formelle de la mani`ere
suivante :
SoitX={X
1, X
2, . . . , Xn} un ensemble de variables al´eatoires dont nous souhaitons estimer la
loi jointeP(X). Nous mod´elisons celle-ci par un r´eseau Bay´esienB= (S,Θ) o`uSest la structure
du mod`ele et Θ l’ensemble des param`etres de ce mod`ele. S est un DAG S ={X, A} o`u X est
l’ensemble des sommets du DAG repr´esentant les variables al´eatoires d’int´erˆet et A ⊆ X×X
l’ensemble des arcs du graphe codant les ind´ependances conditionnelles entre les variables. Dans
le cas qui nous int´eresse, les sommets du DAG correspondent aux niveaux d’expression d’un
ensemble de g`enes mesur´es `a travers diverses conditions exp´erimentales. L’ensemble de ces
ob-servations constitue un jeu de donn´ees not´e D. D = {x
1,x
2, . . . ,x
m} est un m ´echantillon de
P(X) tel que pour tout j ∈ {1, . . . , m}, x
j= {x
j1, x
j2, . . . , x
mn} o`u x
jiest la valeur prise par la
variable Xi au sein de x
j, la j
eobservation parmi les m que compte la base d’exemples. Nous
supposons que ces m observations sont ind´ependantes et identiquement distribu´ees. Nous
sou-haitons utiliser cette base d’exemples pour inf´erer la structureS du mod`ele B repr´esentant la
loi jointe des donn´ees.
Les hypoth`eses de travail Nous r´esumons `a pr´esent les principales hypoth`eses qui
sous-tendent l’apprentissage de r´eseaux Bay´esiens.
Apprentissage automatique de mod`eles graphiques orient´es Chapitre 4
D´efinition 4.5 (Hypoth`ese de fid´elit´e causale)
On postule l’existence d’un r´eseau Bay´esien surXcapable de repr´esenter la liste des ind´ependances
conditionnelles associ´ee `a la distribution de probabilit´eP(X)sous-jacente aux donn´ees.
L’hypoth`ese de fid´elit´e causale revient `a supposer que le mod`ele que nous nous proposons
d’identifier existe bel et bien, et qu’il repr´esente fid`element la distribution des variables observ´ees.
Elle implique ´egalement que les donn´ees soient fiables, c’est-`a-dire qu’il n’y a pas d’ind´ependances
conditionnelles accidentelles.
´
Evidemment, les r´eseaux Bay´esiens ne fournissent qu’une repr´esentation abstraite et simplifi´ee
des r´eseaux de r´egulation biologique. Comme nous l’avons expliqu´e dans le premier chapitre,
l’´etude du transcriptome ne permet de capturer qu’un aspect particulier de la r´egulation car les
nombreux ph´enom`enes r´egulatoires post´erieurs `a la synth`ese des ARNm ne sont pas mod´elis´es.
Surtout, les r´eseaux Bay´esiens (statiques) ne permettent pas de rendre compte du caract`ere
dynamique des r´eseaux de r´egulation. On fait malgr´e tout l’hypoth`ese qu’il est possible de
capturer la structure du syst`eme r´egulatoire `a partir des donn´ees.
D´efinition 4.6 (Postulat causal de Markov)
Un ensemble de variables X ={X
1, . . . , Xn} est suffisant causalement pour un jeu de donn´ees
D si toute cause commune Y `a un ensemble de variables de X appartient elle-mˆeme `a X,
ou si Y est constante sur D. Cela implique que X est suffisant pour capturer toutes les
rela-tions d’ind´ependances conditionnelles pouvant ˆetre extraites des donn´ees. Relativement `a cette
hypoth`ese, chaque sommet est ind´ependant de ses non descendants conditionnellement `a ses
parents au sein du graphe.
On suppose ici que toutes les variables du probl`eme ont ´et´e prises en compte, et que par
cons´equent, toutes les ind´ependances conditionnelles caract´erisant la distribution des donn´ees
pourrons ˆetre extraites. Rappelons que dans le cas o`u une variable cach´ee intervient dans les
ph´enom`enes observ´es, il est possible de conclure `a un lien de cause `a effet entre deux ph´enom`enes
corr´el´es alors qu’ils ont en r´ealit´e une cause commune.
Dans le contexte des r´eseaux de r´egulation g´en´etique, ce dernier point est ´egalement discutable.
La technologie des puces `a ADN permet de rendre compte de l’activit´e transcriptionnelle de
l’ensemble des g`enes d’un organisme (plusieurs dizaines de milliers) alors que les probl`emes
d’apprentissage `a notre port´ee comportent de l’ordre de plusieurs dizaines de variables. Dans ces
conditions, il apparaˆıt ´evident que mˆeme un choix judicieux des g`enes ´etudi´es ne saurait garantir
l’absence de variables cach´ees. Faute de solution satisfaisante, nous faisons cependant l’hypoth`ese
que de telles variables, si elles existent, n’interviennent pas directement sur le syst`eme ´etudi´e ou
ont un effet constant sur ce dernier.
4.3.2 Apprentissage par contraintes
Nous avons vu que dans les r´eseaux d’association et les mod`eles graphiques Gaussiens, la
d´etermination des ind´ependances conditionnelles est utilis´ee pour d´ecider si les donn´ees justifient
l’incorporation d’une arˆete au sein du r´eseau. Le mˆeme principe permet de g´en´erer la structure
du r´eseau Bay´esien.
4.3.2.1 Test statistique d’ind´ependance conditionnelle
Le test statistique d’ind´ependance conditionnelle classiquement utilis´e pour ´eliminer des
arˆetes surnum´eraires ou ajouter des arˆetes manquantes dans un r´eseau Bay´esien est le test du
χ
2:
Deuxi`eme partie Apprentissage des r´eseaux de r´egulation g´en´etique
D´efinition 4.7 (Test du χ
2)
Soient deux variables al´eatoires discr`etesXi etXj appartenant `a X, qui prennent leurs valeurs
respectivement dans {1, . . . , ri} et {1, . . . , rj}. Soit Nkl le nombre de co-occurrences de {Xi =
k, Xj =l}dans la base d’apprentissage Dde taillem,Nk
·le nombre d’occurrences de{Xi=k}
et N
·lle nombre d’occurrences de {Xj = l}. Il s’agit de confronter le mod`ele observ´e dans
les donn´ees PO = P(Xi, Xj) repr´esent´e par les occurrences Okl = Nkl, au mod`ele th´eorique
Pt = P(Xi)·P(Xj) repr´esent´e par les occurrences Tkl =
Nk··N·lm
. On consid`ere la statistique
suivante (de degr´es de libert´edl= (r
i−1)·(r
j−1)) :
χ
2=
riX
k=1 rjX
l=1(O
kl−T
kl)
2Tkl =
riX
k=1 rjX
l=1(N
kl−
Nk··N·l m)
2 Nk··N·l m(4.4)
Sous l’hypoth`ese H
0, X
iet X
jsont ind´ependantes ce qui veut dire que P(X
i, X
j) = P(X
i)·
P(Xj). Le test du χ
2estime la plausibilit´e de l’hypoth`ese selon laquelle le mod`ele observ´e PO
correspond au mod`ele th´eorique Pt qui mod´elise l’hypoth`ese d’ind´ependance des variables. La
valeur de la statistique de test est d’autant plus faible que les effectifs correspondant `a ces deux
mod`eles sont proches. L’hypoth`ese d’ind´ependance entreXi etXj est v´erifi´ee si et seulement si
χ
2< χ
2
Dans le document
Approches évolutionnaires pour la reconstruction de réseaux de régulation génétique par apprentissage de réseaux bayésiens.
(Page 98-101)