• Aucun résultat trouvé

Avec les méthodes d’apprentissage supervisé classiques, on cherche à sélectionner un nombre restreint de gènes pour établir des modèles qui soient prédictifs du caractère biologique d’intérêt.

Mais comment convaincre un biologiste que notre modèle dit vrai ? De sa réelle pertinence ? Un modèle ne doit pas être uniquement satisfaisant pour le statisticien, mais doit « coller » au plus près des contraintes posées par l’application biologique. La recherche de biomarqueurs génétiques ne peut être effectuée uniquement sur des critères statistiques, car la pertinence statistique d’un modèle ne garantit en rien sa pertinence biologique. Il faut trouver des modèles qui aient un fondement biologique solide même si ils ont des performances prédictives moindres, de façon à favoriser la reproductibilité des résultats. Les gènes sélectionnés avec les méthodes d’apprentissage supervisé classiques ont peu de chance d’être ceux qui sont les plus pertinents sur le plan biologique et il est nécessaire de réintégrer de l’information biologique dans les analyses avant d’effectuer des sélections stingentes.

L’une des caractéristiques des données transcriptomiques est qu’il existe des groupes de va- riables fortement corrélées. L’information redondante sur le plan statistique ne l’est absolument pas sur le plan biologique. En effet, ces corrélations peuvent refleter des interactions entre les gènes et l’information portée par ces corrélations peut s’avérer être déterminante pour la com- préhension biologique d’un phénomène. Au lieu de décomposer le système et de rechercher des effets individuels, comme avec les méthodes d’apprentissage supervisé classiques, on va s’intéres- ser dans le deuxième chapitre à l’analyse de ce système à l’intérieur duquel les gènes interagissent les uns avec les autres.

Chapitre 2

L’analyse des réseaux génétiques :

au coeur de la biologie des systèmes

2.1

Introduction

La biologie moléculaire a longtemps adoptée une vision de nature “réductionniste” en expli- quant le fonctionnement interne de la cellule comme étant la résultante de la somme des actions individuelles de chacune de ses parties (des gènes et des protéines par exemple). Cette approche a permis de nombreuses avancées dans la compréhension du vivant et des maladies, mais est néanmoins de plus en plus remise en question. En pharmacologie par exemple, la question de savoir quelles peuvent être les conséquences globales d’une action ciblée est primordiale, et le seul moyen d’y répondre (hormis par des essais cliniques) est de replacer les éléments dans un système et d’étudier leurs interactions.

L’idée que les éléments de la cellule forment un système complexe et qu’ils sont complètement interdépendants de ce système ne date pas d’aujourd’hui. Waddington décrit [66], en 1950, le fonctionnement de la cellule à travers le concept de « paysage épigénétique » à l’intérieur du- quel les interactions entre les gènes jouent un rôle central. Il imagine un paysage constitué d’un ensemble de monts et de vallées et une bille se déplaçant sur le paysage en fonction des trans- formations de celui-ci. Les gènes contrôlent la forme du paysage et toute mutation sur un gène entraine une modification de ce paysage (Figure 2.1). La position de la bille dans une certaine vallée détermine quant à elle l’état de la cellule. Si un gène mute, le paysage se modifie, mais quelles sont les conséquences sur le déplacement de la bille d’une vallée à l’autre, c’est à dire sur l’état de la cellule ? En fonction des interactions entre le gène muté et les autres gènes, les modifi- cations du paysage seront plus ou moins importantes et pourront selon la configuration entrainer un déplacement de la bille vers une autre vallée. Cela souligne l’importance de la structure du système et des interactions entre les éléments au sein de ce système.

La biologie des systèmes est aussi séduisante que complexe. Une petite révolution est en marche depuis une dizaine d’années avec l’avènement de nouvelles biotechnologies (la puce à ADN par exemple) offrant la possibilité de caractériser l’ensemble des parties constitutives d’un système (ADN, ARN, protéines... par exemple au niveau de la cellule). L’intégration de ces données en- gendre de multiples problématiques interdisciplinaires : pour l’extraction de l’information (biolo- gie, physique, chimie, imagerie...), pour le stockage et le traitement des données (bioinformatique)

Figure 2.1 – Le paysage épigénétique de Waddington et le problème des septs ponts de Königsberg.

et pour la modélisation du système (mathématiques). Jusqu’ici nous avons évoqué la notion de système en faisant référence à la cellule, mais la cellule est elle-même une partie d’un système plus vaste, une population de cellules par exemple, elle même une partie d’un autre système... Le fonctionnement biologique intègre différents niveaux hiérarchisés de systèmes.

L’objectif ultime de la biologie des systèmes est de comprendre les interactions à tous les niveaux et entre tous les éléments en se plaçant le plus haut possible dans la hiérarchie. Les progrès en biotechnologie offre de nouvelles opportunités pour la collecte massive de données mais tout l’intérêt de « ratisser large » est de permettre une meilleure compréhension des phé- nomènes biologiques dans leur globalité. Ces données sont pourtant encore très largement étu- diées en adoptant la vision « réductionniste » faisant abstraction totale des interactions entre les éléments. Un grand nombre de méthodologies statistiques (tests, régression pénalisée, sparse PLS...), développées pour l’analyse de données très volumineuses, ont pour but d’extraire un petit ensemble interprétable d’élements et susceptible d’expliquer un phénomène biologique d’in- térêt. Cependant, en sélectionnant quelques « super candidats » pour expliquer une maladie, en se basant par exemple sur une p-valeur comme c’est souvent le cas en biologie, le risque de non reproductibilité des résultats est augmenté [45]. Ne vaut-il pas mieux privilégier une approche cherchant à intégrer la complexité des données plutôt que de l’en dépourvoir, et présenter des résultats paraissant peut être moins significatifs mais plus prometteurs en terme de robustesse ? L’émergence de la science des réseaux offre une excellente opportunité pour une biologie plus « systémique ». La compréhension des réseaux (ensemble d’éléments interconnectés), ou plus précisément celle de leurs structures intrinsèques, offre de nouvelles perspectives à un plus haut niveau de complexité (intégration de voie métaboliques par exemple ou plus généralement de fonctions biologiques).

L’étude des réseaux s’est développée en mathématique à travers la théorie des graphes. L’ori- gine de la théorie des graphes a été attribuée au mathématicien Euler qui posa le problème en 1736 des sept ponts de Königsberg (Figure 2.1). Le problème consiste à déterminer si il est possible de trouver un circuit, en partance d’un point donné, qui permettrait de traverser les

septs ponts et de revenir à son point de départ sans jamais emprunter deux fois le même pont. La réponse est non, il n’existe pas de tel chemin pour cette configuration (un tel chemin existe si est seulement si tous les sommets du graphe sont de degré pair). Les premières propriétés de la théorie des graphes ont alors vu le jour : un graphe eulérien est un graphe sur lequel il existe un circuit eulérien c’est à dire un chemin passant par l’ensemble des arêtes du graphe une seule fois et se terminant là où il a commencé. Par la suite, nous emploierons le terme réseau pour faire référence à un ensemble d’éléments réels (les gènes par exemple) tandis que le terme graphe désignera l’objet mathématique (abstraction faite à partir du réseau réel).

2.2

Brève introduction à la théorie des graphes