Pr´ ediction

´

Equations qualitatives pour la

consistance des donn´ees

E. En voici les solutions :

etendµ

et respecte le crit`ere de consistance. En revanche, la mesureµ

n’est pas

com-patible avec le graphe d’interaction parce que toute extension contredit le crit`ere de

consistance. La v´erification est plus difficile dans le cas de donn´ees manquantes,

puis-qu’elle se ramène à une résolution (trouver une valeur pour les inconnues qui respecte

une contrainte donnée). Dans cet exemple, les données manquantes correspondent à des

mesures incomplètes ; plus généralement, les inconnues peuvent porter sur l’effet d’une

r´egulation (activation ou inhibition), ou mˆeme sur son existence.

2.2 Pr´ediction

Lorsque l’on dispose de mesures compatibles avec un graphe d’interaction, on peut

les utiliser pour prédire la valeur des variables non observées (variation d’un gène dans

une condition donnée, effet ou existence d’une régulation). Par prédire, on signifie dans

ce travail(( déduire par l’intermédiaire du critère de consistance))

. Par exemple, dans

le cas du graphe d´ecrit en fig. 2.1(a), nous avons vu que si l’on connaˆıt la variation de A,

alors on connaˆıt ´egalement la variation de B et C. Les choses se compliquent pour des

systèmes plus étendus : revenons à l’opéron lactose, et supposons que l’on ne dispose

que de la mesure µ

. Celle-ci est consistante avec le graphe, et admet 5 extensions,

Si, pour une question d’interprétation des données que l’on verra plus loin, on décide d’exclure la

variation nulle, alors il y a 18 mesures compatibles avec le graphe d’interaction, sur un total de 2

= 256

possibilit´es.

Il existe d’autres modes de prédiction, notamment la prédiction par modèle optimal : soit un

ensemble de modèle, on associe à chacun un score ou une probabilité en fonction de son adéquation

Produit Le Li G LacY LacZ LacI A cAMP-CRP

µ

+ 0 – – – + – +

µ

+ – – – – + – +

µ

+ + – – – + – +

µ

+ + – 0 – + – +

µ

+ + – + – + – +

Tab.2.5 – Extensions de la mesureµ

qui sont consistantes avec le graphe d’interaction

de l’op´eron lactose.

Produit Le Li G LacY LacZ LacI A cAMP-CRP

+ 1

0.6 0.6 1 0 1 0.2

0 0

0.2 0.2 0 0 0 0.2

– 0

0.2 0.2 0 1 0 0.6

Tab. 2.6 – Loi de probabilit´e des variations pour chaque esp`ece, en supposant une

augmentation de L

et une diminution de LacI. Les diff´erentes possibilit´es d’extension

sont considérées comme équiprobables.

données dans le tableau 2.5. Un examen de ces solutions au problème de vérification

montre qu’outre L

, G et LacI qui sont fix´ees par la mesure, LacZ, cAMP-CRP et A

n’admettent qu’une seule variation ; on en d´eduit que si Le et LacI augmentent, et G

diminue alors n´ecessairement LacZ et A diminuent pendant que cAMP-CRP augmente.

Récapitulons : on dispose de données incomplètes sur un système et ses réponses à des

perturbations. Le crit`ere de consistance d´ecrit l’ensemble des valeurs admissibles pour

les donn´ees manquantes. Enfin on appelle pr´edictions les invariants de cet ensemble.

On peut également s’intéresser à une notion de prédiction moins forte : d’après le

tableau 2.5, LacY n’est pas invariant, mais prend dans 3 possibilit´es d’extension sur 5 la

valeur–. En considérant les différentes possibilités comme équiprobables, on peut ainsi

établir une loi de probabilité discrète sur les valeurs que peut prendre chaque variable

non observée. Un exemple est donné au tableau 2.6, dans le cas où l’on observe une

augmentation de Le et une diminution de LacI.

Bilan

Nous avons décrit de manière informelle les premiers pas d’une analyse de données

telle que propos´ee dans ce travail. Nous avons en particulier insist´e sur la phase

d’in-terprétation des données brutes, leur confrontation avec un modèle graphique des

régulations du système (étape de vérification), et la recherche de prédictions sur les

variables non observ´ees. Dans le reste de ce travail, nous formalisons cette d´emarche,

et nous montrons comment réaliser efficacement les déductions sur le modèle et les

données. Le prochain chapitre précise notamment la relation entre signe des régulations

et signe des variations et en propose plusieurs justifications.

´

Equations qualitatives pour la

consistance des donn´ees

Le problème posé dans cette thèse concerne le traitement de données haut-débit en

biologie moléculaire. Nous l’avons vu, il s’agit de réussir à intégrer des informations de

activateur, nul, inhibiteur ou ind´etermin´e respectivement. L’ensemble_S={+,0,–,?}

espèces chimiques du système,E ⊂V ×V est l’ensemble des régulations, et ρ:E →_S

appellerons mesure une application g´en´eralement partielle µ : V → _S\ {?}. Cette