• Aucun résultat trouvé

L’approche Bay´esienne consiste ` a rechercher les param`etres maximisant la probabilit´e a pos-

a pr´esent d´efinirla vraisemblance du mod`ele,L(Θ), comme la probabilit´e d’observer les donn´ees

sachant le mod`ele (c’est-`a-dire sachant qu’elles suivent la loi jointe repr´esent´ee par le mod`ele) :

L(Θ) =P(D|Θ) =

m

Y

i=1

P(x

i

|Θ) (4.3)

Pour aboutir `a cette factorisation, on fait l’hypoth`ese (tr`es classique en apprentissage) que les

donn´ees sont ind´ependantes et identiquement distribu´ees.

Le principe visant `a identifier les param`etres Θ

M V

maximisant L(Θ) est appel´emaximum

de vraisemblance (MV). Dans la pratique, on cherchera g´en´eralement `a identifier les param`etres

maximisant la log-vraisemblance lnP(D | Θ), soit : Θ

M V

= arg max

Θ

lnP(D | Θ).

L’uti-lisation de la log-vraisemblance permet de simplifier les calculs et se justifie par le fait que

la fonction ln est une fonction convexe (et donc ln(f) a les mˆemes extrema que f). Il arrive

´egalement, que l’on pr´ef`ere exprimer le probl`eme sous la forme d’une minimisation de l’oppos´e

de la log-vraisemblance. Enfin, notons que cette approche ne fait pas intervenir d’a priori sur

les param`etres ´etudi´es.

4.2.2 L’approche Bay´esienne

Dans cette approche, on introduit une distributiona priori sur les param`etres. Celle-ci

per-met par exemple d’exploiter des connaissances (ind´ependantes des donn´ees d’apprentissage)

concernant le ph´enom`ene mod´elis´e afin de guider la recherche des param`etres. Lorsqu’on ne

dispose d’aucune hypoth`ese ou connaissance a priori, il est courant d’utiliser une distribution a

priori uniforme.

L’approche Bay´esienne consiste `a rechercher les param`etres maximisant la probabilit´e a

pos-teriori (MAP) des donn´ees. On cherche `a identifier Θ

M AP

, le jeu de param`etres maximisant

la probabilit´e d’un mod`ele candidat, sachant les donn´ees qu’il est cens´e repr´esenter, soit :

Θ

M AP

= arg max

Θ

lnP(Θ|D).

En s’appuyant sur le th´eor`eme de Bayes, il est possible d’incorporer un a priori dans la

d´etermination des param`etres :

P(Θ|D) =P(D|Θ)·P(Θ)

P(D)

On constate que la probabilit´e a posteriori s’exprime comme le produit d’une vraisemblance et

d’une probabilit´ea priori (P(Θ)), le tout divis´e par une constante de normalisation. La

proba-bilit´e des donn´ees P(D) ´etant constante quel que soit le mod`ele trait´e, elle n’est pas prise en

compte dans le calcul de ce crit`ere.

4.3 Apprentissage de structure dans les r´eseaux Bay´esiens

L’apprentissage de structure est l’aspect le plus int´eressant des r´eseaux Bay´esiens en biologie

des syst`emes. Il s’agit d’une tˆache complexe qui n´ecessite le d´eveloppement d’algorithmes adapt´es

et puissants. Elle est particuli`erement difficile lorsque la quantit´e et la qualit´e des donn´ees

dis-ponibles est faible et que la conception des exp´eriences de puces `a ADN ne tient pas compte d`es

85

Deuxi`eme partie Apprentissage des r´eseaux de r´egulation g´en´etique

le d´epart de certains imp´eratifs de l’apprentissage statistique. Deux approches se partagent ce

champ d’investigation : les approchespar contraintes et la recherche de mod`eles fond´ee sur des

approches `a base de score, que nous avons privil´egi´ees. Avant de pr´esenter ces techniques nous

allons d’abord rappeler les notations de base utilis´ees dans ce document. Surtout, nous

rappelle-rons quelques principes et hypoth`eses (souvent implicites) sur lesquels se fondent l’inf´erence de

mod`eles.

4.3.1 Probl´ematique de l’apprentissage de r´eseaux de r´egulation et hypoth`eses

de travail

Notations Dans ce qui suit, les variables al´eatoires sont not´ees en majusculesA, B, . . . , Z. Les

valeurs prises par ces variables sont not´ees en minuscules a, b, . . . , z. D’une mani`ere g´en´erale,

les ensembles sont not´es en gras : qu’il s’agisse d’un ensemble de variables al´eatoires A =

{B, C, D, E} ou d’une instanciation de ce derniera={b, c, d, e}.

Le probl`eme d’apprentissage de structure Soit D un jeu de donn´ees correspondant `a

un ensemble d’observations ind´ependantes d’un syst`eme de r´egulation inconnu. On suppose que

ce r´eseau de r´egulation peut ˆetre d´ecrit par une distribution de probabilit´e jointe P(X) sur

une collection de variables al´eatoires repr´esentant les g`enes d’int´erˆet {X

1

, X

2

, . . . , Xn}. On

sup-pose ´egalement que les observations exp´erimentales constituent un ´echantillon repr´esentatif de

cette loi jointe. On se donne une famille d’hypoth`eses correspondant `a une classe de mod`eles

probabilistes, en l’occurrence des r´eseaux Bay´esiens B = (S,Θ), qui nous semble adapt´ee `a la

repr´esentation de la loi jointe. On souhaite identifier l’hypoth`ese (le mod`ele) repr´esentant le

plus fid`element possible la loi jointe dont sont issues les donn´ees. Le mod`ele ainsi s´electionn´e

doit permettre de d´ecrire le syst`eme de r´egulation observ´e. Plus pr´ecis´ement, c’est la structure

S de ce mod`ele qui nous int´eresse, ses param`etres Θ ´etant secondaires dans la repr´esentation

du r´eseau de r´egulation. Le probl`eme peut ˆetre pos´e d’une mani`ere plus formelle de la mani`ere

suivante :

SoitX={X

1

, X

2

, . . . , Xn} un ensemble de variables al´eatoires dont nous souhaitons estimer la

loi jointeP(X). Nous mod´elisons celle-ci par un r´eseau Bay´esienB= (S,Θ) o`uSest la structure

du mod`ele et Θ l’ensemble des param`etres de ce mod`ele. S est un DAG S ={X, A} o`u X est

l’ensemble des sommets du DAG repr´esentant les variables al´eatoires d’int´erˆet et A ⊆ X×X

l’ensemble des arcs du graphe codant les ind´ependances conditionnelles entre les variables. Dans

le cas qui nous int´eresse, les sommets du DAG correspondent aux niveaux d’expression d’un

ensemble de g`enes mesur´es `a travers diverses conditions exp´erimentales. L’ensemble de ces

ob-servations constitue un jeu de donn´ees not´e D. D = {x

1

,x

2

, . . . ,x

m

} est un m ´echantillon de

P(X) tel que pour tout j ∈ {1, . . . , m}, x

j

= {x

j1

, x

j2

, . . . , x

mn

} o`u x

ji

est la valeur prise par la

variable Xi au sein de x

j

, la j

e

observation parmi les m que compte la base d’exemples. Nous

supposons que ces m observations sont ind´ependantes et identiquement distribu´ees. Nous

sou-haitons utiliser cette base d’exemples pour inf´erer la structureS du mod`ele B repr´esentant la

loi jointe des donn´ees.

Les hypoth`eses de travail Nous r´esumons `a pr´esent les principales hypoth`eses qui

sous-tendent l’apprentissage de r´eseaux Bay´esiens.

Apprentissage automatique de mod`eles graphiques orient´es Chapitre 4

D´efinition 4.5 (Hypoth`ese de fid´elit´e causale)

On postule l’existence d’un r´eseau Bay´esien surXcapable de repr´esenter la liste des ind´ependances

conditionnelles associ´ee `a la distribution de probabilit´eP(X)sous-jacente aux donn´ees.

L’hypoth`ese de fid´elit´e causale revient `a supposer que le mod`ele que nous nous proposons

d’identifier existe bel et bien, et qu’il repr´esente fid`element la distribution des variables observ´ees.

Elle implique ´egalement que les donn´ees soient fiables, c’est-`a-dire qu’il n’y a pas d’ind´ependances

conditionnelles accidentelles.

´

Evidemment, les r´eseaux Bay´esiens ne fournissent qu’une repr´esentation abstraite et simplifi´ee

des r´eseaux de r´egulation biologique. Comme nous l’avons expliqu´e dans le premier chapitre,

l’´etude du transcriptome ne permet de capturer qu’un aspect particulier de la r´egulation car les

nombreux ph´enom`enes r´egulatoires post´erieurs `a la synth`ese des ARNm ne sont pas mod´elis´es.

Surtout, les r´eseaux Bay´esiens (statiques) ne permettent pas de rendre compte du caract`ere

dynamique des r´eseaux de r´egulation. On fait malgr´e tout l’hypoth`ese qu’il est possible de

capturer la structure du syst`eme r´egulatoire `a partir des donn´ees.

D´efinition 4.6 (Postulat causal de Markov)

Un ensemble de variables X ={X

1

, . . . , Xn} est suffisant causalement pour un jeu de donn´ees

D si toute cause commune Y `a un ensemble de variables de X appartient elle-mˆeme `a X,

ou si Y est constante sur D. Cela implique que X est suffisant pour capturer toutes les

rela-tions d’ind´ependances conditionnelles pouvant ˆetre extraites des donn´ees. Relativement `a cette

hypoth`ese, chaque sommet est ind´ependant de ses non descendants conditionnellement `a ses

parents au sein du graphe.

On suppose ici que toutes les variables du probl`eme ont ´et´e prises en compte, et que par

cons´equent, toutes les ind´ependances conditionnelles caract´erisant la distribution des donn´ees

pourrons ˆetre extraites. Rappelons que dans le cas o`u une variable cach´ee intervient dans les

ph´enom`enes observ´es, il est possible de conclure `a un lien de cause `a effet entre deux ph´enom`enes

corr´el´es alors qu’ils ont en r´ealit´e une cause commune.

Dans le contexte des r´eseaux de r´egulation g´en´etique, ce dernier point est ´egalement discutable.

La technologie des puces `a ADN permet de rendre compte de l’activit´e transcriptionnelle de

l’ensemble des g`enes d’un organisme (plusieurs dizaines de milliers) alors que les probl`emes

d’apprentissage `a notre port´ee comportent de l’ordre de plusieurs dizaines de variables. Dans ces

conditions, il apparaˆıt ´evident que mˆeme un choix judicieux des g`enes ´etudi´es ne saurait garantir

l’absence de variables cach´ees. Faute de solution satisfaisante, nous faisons cependant l’hypoth`ese

que de telles variables, si elles existent, n’interviennent pas directement sur le syst`eme ´etudi´e ou

ont un effet constant sur ce dernier.

4.3.2 Apprentissage par contraintes

Nous avons vu que dans les r´eseaux d’association et les mod`eles graphiques Gaussiens, la

d´etermination des ind´ependances conditionnelles est utilis´ee pour d´ecider si les donn´ees justifient

l’incorporation d’une arˆete au sein du r´eseau. Le mˆeme principe permet de g´en´erer la structure

du r´eseau Bay´esien.

4.3.2.1 Test statistique d’ind´ependance conditionnelle

Le test statistique d’ind´ependance conditionnelle classiquement utilis´e pour ´eliminer des

arˆetes surnum´eraires ou ajouter des arˆetes manquantes dans un r´eseau Bay´esien est le test du

χ

2

:

Deuxi`eme partie Apprentissage des r´eseaux de r´egulation g´en´etique

D´efinition 4.7 (Test du χ

2

)

Soient deux variables al´eatoires discr`etesXi etXj appartenant `a X, qui prennent leurs valeurs

respectivement dans {1, . . . , ri} et {1, . . . , rj}. Soit Nkl le nombre de co-occurrences de {Xi =

k, Xj =l}dans la base d’apprentissage Dde taillem,Nk

·

le nombre d’occurrences de{Xi=k}

et N

·l

le nombre d’occurrences de {Xj = l}. Il s’agit de confronter le mod`ele observ´e dans

les donn´ees PO = P(Xi, Xj) repr´esent´e par les occurrences Okl = Nkl, au mod`ele th´eorique

Pt = P(Xi)·P(Xj) repr´esent´e par les occurrences Tkl =

Nk··N·l

m

. On consid`ere la statistique

suivante (de degr´es de libert´edl= (r

i

−1)·(r

j

−1)) :

χ

2

=

ri

X

k=1 rj

X

l=1

(O

kl

−T

kl

)

2

Tkl =

ri

X

k=1 rj

X

l=1

(N

kl

Nk··N·l m

)

2 Nk··N·l m

(4.4)

Sous l’hypoth`ese H

0

, X

i

et X

j

sont ind´ependantes ce qui veut dire que P(X

i

, X

j

) = P(X

i

P(Xj). Le test du χ

2

estime la plausibilit´e de l’hypoth`ese selon laquelle le mod`ele observ´e PO

correspond au mod`ele th´eorique Pt qui mod´elise l’hypoth`ese d’ind´ependance des variables. La

valeur de la statistique de test est d’autant plus faible que les effectifs correspondant `a ces deux

mod`eles sont proches. L’hypoth`ese d’ind´ependance entreXi etXj est v´erifi´ee si et seulement si

χ

2

< χ

2