L’approche Bayésienne consiste ` a rechercher les paramètres maximisant la probabilité a pos-

^Nk_··N_·l m

2 Nk··N_·l m

L’approche Bayésienne consiste ` a rechercher les paramètres maximisant la probabilité a pos-

a présent définirla vraisemblance du modèle,L(Θ), comme la probabilité d’observer les données

sachant le modèle (c’est-à-dire sachant qu’elles suivent la loi jointe représentée par le modèle) :

L(Θ) =P(D|Θ) =

Y

P(x

|Θ) (4.3)

Pour aboutir à cette factorisation, on fait l’hypothèse (très classique en apprentissage) que les

données sont indépendantes et identiquement distribuées.

Le principe visant `a identifier les param`etres Θ

maximisant L(Θ) est appel´emaximum

de vraisemblance (MV). Dans la pratique, on cherchera généralement à identifier les paramètres

maximisant la log-vraisemblance lnP(D | Θ), soit : Θ

= arg max

lnP(D | Θ).

L’uti-lisation de la log-vraisemblance permet de simplifier les calculs et se justifie par le fait que

la fonction ln est une fonction convexe (et donc ln(f) a les mˆemes extrema que f). Il arrive

également, que l’on préfère exprimer le problème sous la forme d’une minimisation de l’opposé

de la log-vraisemblance. Enfin, notons que cette approche ne fait pas intervenir d’a priori sur

les paramètres étudiés.

4.2.2 L’approche Bay´esienne

Dans cette approche, on introduit une distributiona priori sur les param`etres. Celle-ci

per-met par exemple d’exploiter des connaissances (ind´ependantes des donn´ees d’apprentissage)

concernant le phénomène modélisé afin de guider la recherche des paramètres. Lorsqu’on ne

dispose d’aucune hypoth`ese ou connaissance a priori, il est courant d’utiliser une distribution a

priori uniforme.

L’approche Bayésienne consiste à rechercher les paramètres maximisant la probabilité a

pos-teriori (MAP) des donn´ees. On cherche `a identifier Θ

, le jeu de param`etres maximisant

la probabilité d’un modèle candidat, sachant les données qu’il est censé représenter, soit :

Θ

= arg max

lnP(Θ|D).

En s’appuyant sur le th´eor`eme de Bayes, il est possible d’incorporer un a priori dans la

d´etermination des param`etres :

P(Θ|D) =P(D|Θ)·P(Θ)

P(D)

On constate que la probabilit´e a posteriori s’exprime comme le produit d’une vraisemblance et

d’une probabilit´ea priori (P(Θ)), le tout divis´e par une constante de normalisation. La

proba-bilité des données P(D) étant constante quel que soit le modèle traité, elle n’est pas prise en

compte dans le calcul de ce crit`ere.

4.3 Apprentissage de structure dans les r´eseaux Bay´esiens

L’apprentissage de structure est l’aspect le plus intéressant des réseaux Bayésiens en biologie

des systèmes. Il s’agit d’une tâche complexe qui nécessite le développement d’algorithmes adaptés

et puissants. Elle est particulièrement difficile lorsque la quantité et la qualité des données

dis-ponibles est faible et que la conception des expériences de puces à ADN ne tient pas compte dès

85

Deuxième partie Apprentissage des réseaux de régulation génétique

le d´epart de certains imp´eratifs de l’apprentissage statistique. Deux approches se partagent ce

champ d’investigation : les approchespar contraintes et la recherche de mod`eles fond´ee sur des

approches à base de score, que nous avons privilégiées. Avant de présenter ces techniques nous

allons d’abord rappeler les notations de base utilis´ees dans ce document. Surtout, nous

rappelle-rons quelques principes et hypoth`eses (souvent implicites) sur lesquels se fondent l’inf´erence de

mod`eles.

4.3.1 Problématique de l’apprentissage de réseaux de régulation et hypothèses

de travail

Notations Dans ce qui suit, les variables al´eatoires sont not´ees en majusculesA, B, . . . , Z. Les

valeurs prises par ces variables sont notées en minuscules a, b, . . . , z. D’une manière générale,

les ensembles sont not´es en gras : qu’il s’agisse d’un ensemble de variables al´eatoires A =

{B, C, D, E} ou d’une instanciation de ce derniera={b, c, d, e}.

Le problème d’apprentissage de structure Soit D un jeu de données correspondant à

un ensemble d’observations indépendantes d’un système de régulation inconnu. On suppose que

ce réseau de régulation peut être décrit par une distribution de probabilité jointe P(X) sur

une collection de variables aléatoires représentant les gènes d’intérêt {X

, X

, . . . , Xn}. On

sup-pose également que les observations expérimentales constituent un échantillon représentatif de

cette loi jointe. On se donne une famille d’hypothèses correspondant à une classe de modèles

probabilistes, en l’occurrence des réseaux Bayésiens B = (S,Θ), qui nous semble adaptée à la

représentation de la loi jointe. On souhaite identifier l’hypothèse (le modèle) représentant le

plus fidèlement possible la loi jointe dont sont issues les données. Le modèle ainsi sélectionné

doit permettre de décrire le système de régulation observé. Plus précisément, c’est la structure

S de ce modèle qui nous intéresse, ses paramètres Θ étant secondaires dans la représentation

du réseau de régulation. Le problème peut être posé d’une manière plus formelle de la manière

suivante :

SoitX={X

, X

, . . . , Xn} un ensemble de variables al´eatoires dont nous souhaitons estimer la

loi jointeP(X). Nous modélisons celle-ci par un réseau BayésienB= (S,Θ) oùSest la structure

du modèle et Θ l’ensemble des paramètres de ce modèle. S est un DAG S ={X, A} où X est

P(Θ|D) =^P⁽^D|Θ)·P(Θ)