• Aucun résultat trouvé

MÉTHODE DE RECHERCHE DE SIMILARITÉ ENTRE DES GROUPES

Dans le document en fr (Page 42-46)

CHAPITRE 1 : « MATERIEL »

3. MÉTHODE DE RECHERCHE DE SIMILARITÉ ENTRE DES GROUPES

En introduction de cette thèse, l’intégration des données a été présentée comme un besoin pour analyser la masse de données très hétérogènes produites dans le domaine de la biologie. Une façon d'intégrer ces données si hétérogènes est de choisir une manière unique de les représenter quelle que soit leur nature. L'approche utilisée dans l'ensemble de cette thèse, et qui a déjà été exploitée (Barriot, et al., 2004), consiste à structurer les données sous forme de groupes afin d’être capable de les comparer. Cette approche se base sur le concept de voisinage (Danchin, 1998). Un voisinage est un groupe correspondant à un ensemble d’entités biologiques (protéines ou gènes) ayant une valeur en commun pour un critère biologique donné : protéines appartenant à la même voie métabolique, gènes co-localisés sur un chromosome, protéines ayant des tailles similaires, etc. Comparer ces groupes permet de retrouver des relations entre des critères biologiques différents. On peut alors répondre à des questions biologiques telles que « Est-ce que les gènes que je viens d’isoler dans mon expérience sont déjà connus pour avoir une propriété en commun: la même localisation cellulaire, l’appartenance à un même complexe, ou la même annotation fonctionnelle ? ». On peut aller plus loin en recherchant des relations entre des critères biologiques, par exemple, « est-ce que toutes les protéines présentes dans un même compartiment cellulaire sont co-régulées, et cela, systématiquement pour chaque compartiment ? ».

Pour comparer des groupes, il est nécessaire d’avoir une mesure de similarité. Les groupes sont comparés sur la base de leur composition en gènes ou protéines (Figure 5): plus leur intersection sera grande plus ils seront similaires. Afin de pouvoir comparer aussi bien des groupes construits à partir de données sur les protéines que des groupes construits à partir de données sur les gènes, on utilise un identifiant unique pour chaque protéine et le gène codant cette protéine.

Pour mesurer la similarité entre deux groupes, nous utilisons la loi hypergéométrique qui permet de calculer la probabilité (P-value) d’avoir au moins le nombre observé de gènes en commun entre deux groupes qui peuvent différer en taille, et qui sont construits à partir d'un tirage dans une population de gènes. Cette population correspond à l'ensemble des gènes codant les protéines de l’organisme étudié (Figure 5). Cette P-value reflète la similarité entre deux groupes. Elle est considérée comme significative, c’est-à-dire que deux groupes sont significativement similaires, si elle est inférieure ou égale à un certain seuil. Ce seuil est choisi avant

d’effectuer la comparaison et correspond au niveau d’erreur accepté. Dans nos travaux, nous avons utilisé le niveau d'erreur α = 0.1.

Figure 5 : Recherche de similarité entre deux groupes

Le groupe requête est comparé à un second groupe, le groupe cible. Ces deux groupes sont issus de l'ensemble des gènes d'un organisme : la similarité de composition entre ces deux groupes est mesurée en utilisant la loi hypergéométrique. On obtient une P-value qui est la probabilité d’avoir au moins le nombre observé de gènes ou protéines en commun entre les deux groupes.

Cette mise en correspondance de deux groupes, composés de gènes ayant un lien biologique (co-localisés, co-exprimés, etc.), peut être effectuée à plus grande échelle. On peut mettre en relation un groupe requête avec un ensemble de groupes cibles, correspondant à un critère biologique donné, pour chercher à annoter le groupe requête ou explorer la pertinence biologique des groupes cibles (en mettant en évidence une similarité entre groupe requête et groupe(s) cible(s), voir Chapitre 3). On peut également mettre en relation deux ensembles de groupes correspondant à deux critères biologiques différents afin de mettre en évidence des correspondances entre ces critères (voir Chapitres 2 et 4).

Pour faire ces mises en correspondance à plus grande échelle, on construit une collection5 de groupes représentant chaque critère biologique que l’on veut étudier. Par exemple, si on s’intéresse à la localisation cellulaire des protéines d’un organisme, on peut construire une collection de groupes, qui représente le critère biologique « Localisation cellulaire ». Dans cette collection, chaque groupe est un ensemble de protéines annotées comme appartenant à un même compartiment cellulaire. Selon les critères, et donc selon les collections, les groupes sont ou non indépendants les uns des autres. Les liens entre ces groupes peuvent être illustrés par des graphes (Figure 6).

Figure 6 : Relations entre les groupes d’une collection

Exemple des relations hiérarchiques qui existent entre les différents compartiments cellulaires et sub- cellulaires. Les compartiments représentent des groupes d’une même collection « Localisation cellulaire ». Ce dessin illustre de deux manières différentes les relations existantes entre les compartiments.

Lorsqu’on souhaite comparer un groupe avec une collection de groupes représentant un critère biologique (par exemple, un groupe de gènes trouvés co-régulés dans une expérience de transcriptome comparé à la collection correspondant à l'ensemble des voies métaboliques) ou des critères entre eux (la collection des groupes de gènes trouvés co-régulés dans une expérience de transcriptome comparée à la collection correspondant aux voies métaboliques), de nombreuses comparaisons de groupes vont

5 Tout au long du manuscrit, le terme collection est utilisé pour faire référence à l’ensemble des

être effectuées. Pour corriger le biais que ces comparaisons multiples peuvent générer c'est-à-dire la probabilité de trouver des similarités par hasard, le seuil α doit être ajusté. Nous avons utilisé la correction de Bonferroni, souvent appliquée pour ce type d’ajustement (Castillo-Davis and Hartl, 2003; Robinson, et al., 2002; Wrobel, et al., 2005). Cette correction consiste à diviser le seuil de significativité α par le nombre de comparaisons effectuées, qui correspond au nombre de groupes comparés :

T = α / n*m

T est le seuil ajusté ; n est le nombre de groupes soumis (1 ou une collection entière) ; m est le nombre de groupes appartenant à la collection sélectionnée qui va être comparée au(x) groupe(s) soumis.

La comparaison de groupes ou de collections de groupes est une approche générique qui peut aider à l'annotation de groupes, et permet d'étudier les relations pouvant exister entre des critère biologiques, à partir du moment où l’on peut les convertir sous forme de collections de groupes.

Pour différents critères biologiques tels que la localisation cellulaire des protéines, les interactions physiques entre protéines, la représentation sous forme de groupes est directe :

- l’ensemble des protéines présentes dans un même compartiment cellulaire correspond à un groupe, et ainsi chaque compartiment cellulaire devient un groupe, et l’ensemble de ces groupes forme une collection correspondant au critère biologique « Localisation cellulaire » ;

- de même, les protéines interagissant dans un même complexe forment un groupe, et l’ensemble de ces groupes forme une collection correspondant au critère biologique "Complexes Multi-protéiques".

La représentation d'un critère biologique sous forme de collections de groupes n’est pas toujours aussi intuitive. Pour certains critères biologiques, il est nécessaire d’appliquer un traitement sur les données pour générer des groupes de voisins; c'est particulièrement le cas pour des données numériques. Le choix d’une méthode de regroupement, et donc d’une représentation qui en découle pour un critère biologique donné, est la problématique principale abordée dans ces travaux de thèse.

Pour effectuer la manipulation et la comparaison (mesure de similarité) des groupes ou collections de groupes, nous avons utilisé l’outil BlastSets préalablement développé au Centre de Bioinformatique de Bordeaux par Roland Barriot (Barriot, 2005).

Dans le document en fr (Page 42-46)