• Aucun résultat trouvé

données expérimentales et prédites

Nous avons tout d’abord voulu identifier les interactions communes aux jeux de don- nées prédits et expérimentaux. Pour cela, nous devions avoir une modélisation commune pour les deux approches, c’est pourquoi nous avons commencé par adapter les don- nées expérimentales, afin d’identifier l’intersection des deux jeux de données en termes d’interactions.

3.2.1

Identification de l’intersection

Les méthodes de prédiction que nous avons développées nous ont permis de construire un réseau d’interactions protéine-protéine pour Synechocystis constitué de 8 783 inter- actions entre 1 011 protéines et dénommé InteroFull (voir Chapitre 2). Les interactions expérimentales et prédites sont marquées par deux différences techniques principales.

À la différence des interactions identifiées expérimentalement, les interactions pré- dites in-silico sont symétriques. Ainsi, la notion d’appât et de proie n’existe pas. Il est vrai que ces interactions proviennent du transfert d’interactions identifiées expérimenta- lement, dont la plupart ont effectivement été identifiées par des techniques asymétriques. Par conséquent, ces interactions prédites peuvent refléter les biais présents dans les jeux de données sources. Néanmoins, elles ne sont pas orientées à cause de la gestion des bases de données. En effet, la plupart des bases de données ne gardent pas les interactions sous forme orientées. De plus, certaines techniques expérimentales ne donnent pas lieu à des observations orientées.

Par ailleurs, le processus d’inférence étant basé sur les numéros d’accession de la base de données Uniprot, toute protéine non identifiée dans Uniprot n’a pas pu être prise en

3.2. COMPARAISON DES LISTES D’INTERACTIONS

Fig. 3.6 – Distribution des scores sur l’ensemble des protéines VBP pour quelques études à grande échelle. Chaque graphique représente la densité du score pour le jeu de données dont le nom est indiqué au-dessus, associé à la valeur moyenne du score. Seules les interactions entre des protéines VBP sont considérées. Ce score permet d’évaluer la tendance des protéines à être une proie collante ou mal détecter les proies (score positif), ou encore à être un appât collant ou à être mal détectée (score négatif). Plus de détails sur le score sont donnés dans l’Annexe H.

compte lors de la construction in-silico du réseau d’interactions protéine-protéine chez Synechocystis.

Afin de mener une comparaison pertinente entre les interactions expérimentales et prédites, nous avons créé un nouveau jeu de données issu de SatoFull. Ce jeu de données, dénommé SatoFull_Uni_Bi, ne contient que des interactions non orientées distinctes. Pour cela, nous avons regroupé les interactions orientées réciproques (A→B et B→A dans SatoFull deviennent A-B dans SatoFull_Uni_Bi). De plus, les interactions impliquant au moins une protéine absente de la base de données Uniprot ont été retirée. Le nouveau jeu de données SatoFull_Uni_Bi est ainsi constitué de 2 970 interactions entre 1 846 protéines.

Les jeux de données InteroFull et SatoFull_Uni_Bi possèdent 25 interactions en commun ayant lieu entre 40 protéines (voir Figure 3.7). Comme nous l’avons précédem- ment rappelé (voir Section 2.3.5), il a été montré que les jeux de données issus d’iden- tifications à haut-débit d’interactions protéine-protéine ne se recoupent que faiblement. En effet, moins de 10% du nombre total d’interactions sont retrouvées lorsque la même technique est utilisée chez la même espèce [Arifuzzaman et al., 2006]. Ceci souligne le fort taux de faux négatifs de ces techniques, ce que nous retrouvons également ici lors de la comparaison avec les prédictions. Pour évaluer la pertinence de ce recouvrement entre les interactions prédites et identifiées expérimentalement, nous avons calculé la proba- bilité de trouver par hasard un recouvrement au moins aussi grand que celui observé. Nous avons utilisé pour cela un modèle hypergéométrique, selon lequel la probabilité est inférieure à 2, 0 × 10−5 (voir la section C.5 de l’annexe C). Par conséquent, les données

expérimentales corroborent les prédictions.

3.2.2

Description de l’intersection

Les 25 interactions prédites in-silico et identifiées expérimentalement impliquent 40 protéines. Parmi ces 25 interactions, nous avons identifié des complexes stables comme le ribosome ou l’ARN polymérase (voir Figure 3.7). De plus, nous avons observé également des interactions entre des protéines non connues pour former des complexes, comme par exemple les enzymes carboxylases. Il peut s’agir alors d’interactions plus transitoires.

Par définition, l’ensemble de ces interactions est caractérisé à la fois par le processus d’inférence et par l’identification expérimentale.

Concernant l’inférence, nous avons noté que 24 de ces interactions étaient prédites par la méthode InteroBH, six par la méthode InteroPorc, dont cinq étaient prédites par les deux méthodes. Rappelons que les interactions prédites in-silico ont été transférées à partir de sept espèces sources (voir Section 2.1). Même si la plupart des interactions pré- dites et identifiées expérimentalement ont été transférées depuis Escherichia coli (72%), il est intéressant de remarquer que six des sept espèces sources ont été utilisées. En effet, seul Caenorhabditis elegans n’a pas permis de transférer des interactions qui font partie de SatoFull_Uni_Bi. De plus, ces prédictions ne sont pas redondantes pour la plupart. Ainsi, si on retire une des espèces sources parmi les cinq suivantes (E. coli, S. cerevisiae, D. melanogaster, A. thaliana et H. sapiens), on perd au moins une interaction. Enfin, nous avons calculé le nombre d’interactions identifiées expérimentalement pour les trois

3.2. COMPARAISON DES LISTES D’INTERACTIONS

Graphes Interactions Protéines VB VP VBP

SatoCore 1 064 1 152 631 716 195 SatoFull 3 236 1 920 1 044 1 352 476 Core/Full 33% 60% 40% 53% 41% ItoCore 839 795 455 504 164 ItoFull 4 524 3 242 1 522 2 493 773 Core/Full 19% 25% 29% 20% 21% RainCore 622 509 232 397 120 RainFull 1 568 740 256 632 148 Core/Full 40% 69% 91% 63% 81%

Tab. 3.1 – Comparaison entre les jeux de données FULL et CORE pour trois approches par Y2H. La colonne Graphes contient les noms des jeux de données. Les colonnes Interactions et Protéines contiennent respectivement le nombre d’in- teractions et de protéines de ce jeux de données. Enfin les colonnes VB, VP et VBP indiquent respectivement le nombre d’appâts viables, de proies viables et d’appâts/proies viables. Pour chaque étude, nous avons indiqué le pourcentage relatif des jeux de données restreints par rapport aux jeux de données complets. Notons que les rapports entre Ito- Core et ItoFull sont assez différents des deux autres jeux de données, qui sont proches en termes de rapports entre les nombres de protéines et d’interactions, mais assez différents pour ce qui concerne la répartition des protéines.

Fig. 3.7 – Interactions prédites et identifiées expérimentalement. Chacun des 40 nœuds représente une protéine de Synechocystis associée à sa description fournie par Uniprot pour décrire sa (principale) fonction. Les arêtes entre les nœuds représentent des interactions prédites par nos méthodes de prédiction et identifiées expérimentalement par Sato et al. [Sato et al., 2007].

Graphes Protéines Interactions Réciproques Taux de symétrie SatoCore 131 61 12 19,7% SatoFull 406 439 23 5,2% Core/Full × 3,8 ItoCore 128 115 36 31,3% ItoFull 732 863 75 8,7% Core/Full × 3,6 RainCore 86 68 24 35,3% RainFull 120 169 26 15,4% Core/Full × 2,3 SatoA 80 27 5 18,5% SatoFull 406 439 23 5,2% A/Full × 3,5 RainA 79 59 24 40,7% RainFull 120 169 26 15,4% A/Full × 2,6

Tab.3.2 – Comparaison des taux de symétrie entre les jeux de données FULL et CORE. Pour ces analyses, les interactions ont été filtrées. Seules les interactions entre deux protéines VBP différentes ont été considérées. La colonne Graphes contient les noms des jeux de données. Les colonnes Protéines et Interactions contiennent respectivement le nombre de protéines et d’interactions considérées. La colonne Réci- proques indique le nombre d’interactions qui ont été détectées dans les deux sens (de manière réciproque). Enfin la dernière colonne indique la valeur du taux de symétrie, dé- fini comme le pourcentage d’interactions détectées de manière réciproque parmi toutes les interactions mettant en jeux deux protéines VBP. Pour chaque étude, nous avons indiqué le rapport entre ces deux valeurs de ratio de symétrie pour les jeux de données restreints, par rapport aux jeux de données complets.

3.3. COMPARAISON DES TOPOLOGIES