• Aucun résultat trouvé

Modélisation et score de complexes protéine-ARN

N/A
N/A
Protected

Academic year: 2021

Partager "Modélisation et score de complexes protéine-ARN"

Copied!
218
0
0

Texte intégral

(1)

HAL Id: tel-01081605

https://tel.archives-ouvertes.fr/tel-01081605

Submitted on 10 Nov 2014

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Adrien Guilhot-Gaudeffroy

To cite this version:

(2)

U

NIVERSIT

E

´

P

ARIS

-S

UD

´

E

COLE

D

OCTORALE

427 :

I

NFORMATIQUE

P

ARIS

-S

UD

L

ABORATOIRE

: L

ABORATOIRE DE

R

ECHERCHE EN

I

NFORMATIQUE

T

H

ESE

`

I

NFORMATIQUE

par

Adrien G

UILHOT

-G

AUDEFFROY

Mod ´elisation et score de

complexes prot ´eine-ARN

Date de soutenance : 29 / 09 / 2014

Composition du jury :

Directeurs de th `ese : M. J ´er ˆome Az ´e Professeur (LIRMM, Universit ´e de Montpellier 2) MmeJulie Bernauer Charg ´ee de recherche (Inria, LIX, ´Ecole Polytechnique) MmeChristine Froidevaux Professeure (LRI, Universit ´e Paris-Sud, invit ´ee)

Rapporteurs : MmeAnne Poupon Directrice de Recherche CNRS (BIOS, INRA Tours) MmeC ´eline Rouveirol Professeure (LIPN, Universit ´e Paris-Nord)

Examinateurs : M. Philippe Dague Professeur (LRI, Universit ´e Paris-Sud)

(3)
(4)

Sommaire

Sommaire iii

Table des figures ix

Liste des tableaux xi

Introduction xv

1 Contexte . . . xv

2 Structure des prot ´eines et des ARN . . . xvi

2.1 Les acides amin ´es . . . xviii

2.2 Les acides nucl ´eiques . . . xx

2.3 La structure primaire ou s ´equence . . . xxi

2.3.1 D ´efinition . . . xxi

2.3.2 D ´etermination . . . xxiii

2.4 La structure secondaire . . . xxiii

2.4.1 D ´efinition . . . xxiii

2.4.2 D ´etermination `a partir d’une solution . . . xxvi

2.4.3 D ´etermination `a partir des coordonn ´ees atomiques . . xxvii

2.4.4 Pr ´ediction . . . xxvii

2.5 La structure tertiaire . . . xxvii

2.5.1 D ´efinition . . . xxvii

2.5.2 D ´etermination . . . xxviii

2.5.3 Pr ´ediction . . . xxix

Mod ´elisation par homologie . . . xxix

Les m ´ethodes d’enfilage . . . xxix

La mod ´elisation ab initio . . . xxix

(5)

2.6 La structure quaternaire . . . xxx

2.6.1 D ´efinition . . . xxx

2.6.2 D ´etermination . . . xxxi

2.6.3 Pr ´ediction . . . xxxi

3 Les complexes prot ´eine-prot ´eine et prot ´eine-ARN . . . xxxii

3.1 Fonctions . . . xxxii

3.2 D ´etection exp ´erimentale biochimique prot ´eine-prot ´eine . . . xxxii

3.2.1 Le double-hybride sur la levure . . . xxxii

3.2.2 Utilisation de marqueurs (TAP-tag et FLAP-tag) . . . . xxxii

3.3 Les m ´ethodes d’amarrage . . . xxxiv

3.3.1 Le probl `eme . . . xxxiv

3.3.2 Les algorithmes . . . xxxv

3.3.3 La transformation de Fourier . . . xxxvi

3.3.4 Algorithmes d’amarrage et partitionnement du probl `eme xxxvi 4 La tessellation de Vorono¨ı et ses d ´eriv ´ees pour l’amarrage . . . xxxvii

4.1 Constructions . . . xxxvii

4.2 Mesures . . . xxxix

5 Fonctions de score . . . xl 6 Apprentissage automatis ´e . . . xli 6.1 Paradigme de l’apprentissage supervis ´e . . . xli 6.2 Crit `eres d’ ´evaluation . . . xliii 6.2.1 Crit `eres d’ ´evaluation globaux . . . xliii 6.2.2 Crit `eres d’ ´evaluation “locaux” . . . xliv 1 Donn ´ees 1 1.1 Jeux de donn ´ees de complexes prot ´eine-ARN . . . 1

1.1.1 Jeu de r ´ef ´erence des complexes prot ´eine-ARN connus . . . 1

1.1.2 Jeux d’ ´evaluation des proc ´edures d’amarrage : Benchmarks . . 2

1.2 Nettoyage des donn ´ees . . . 2

1.3 Utilisation des donn ´ees . . . 3

1.3.1 Contexte biologique : d ´efinitions . . . 4

1.3.2 Ensemble des perturbations pour l’apprentissage . . . 4

1.3.3 Mesure de similarit ´e : le RMSD . . . 5

1.3.4 Etiquetage . . . .´ 6

(6)

2 Approche Rosetta et adaptation 11

2.1 Pr ´esentation de RosettaDock . . . 11

2.1.1 Amarrage . . . 11

2.1.1.1 G ´en ´eration des candidats . . . 11

2.1.1.2 Tri des candidats . . . 14

2.1.1.3 Amarrages gros-grain ou atomique . . . 15

2.1.2 Autres strat ´egies . . . 16

2.1.2.1 Fonctions de score atomique : termes physico-chimiques 16 2.1.2.2 Termes physico-chimiques `a l’ ´echelle gros-grain . . . . 20

2.2 Evaluation de la fonction de score non optimis ´ee . . . .´ 21

2.2.1 Mesures d’ ´evaluation globales . . . 21

2.2.2 Mesures d’ ´evaluation locales . . . 23

2.3 Optimisation de la fonction de score . . . 25

2.3.1 Estimation des poids par r ´egression logistique . . . 26

2.3.2 Algorithmes ´evolutionnaires . . . 27

2.3.3 M ´ethodologie d’optimisation de la fonction de score atomique . . 28

2.4 Evaluation de la fonction de score optimis ´ee . . . .´ 30

2.4.1 Pouvoir pr ´edictif en fonction des contraintes . . . 31

2.4.2 Fonction de score d ´edi ´ee pour chaque type d’ARN . . . 32

2.4.3 Combinaison lin ´eaire `a poids positifs . . . 32

2.4.3.1 Pouvoir pr ´edictif de la fonction de score . . . 33

2.4.3.2 Enrichissement du tri des candidats . . . 35

2.4.3.3 D ´etection d’entonnoir . . . 35

2.4.3.4 R ´epartition des coefficients des termes de score . . . . 38

2.4.4 Filtrage a priori des candidats du mod `ele atomique . . . . 39

2.5 Conclusions sur la fonction de score atomique . . . 41

3 Approche a posteriori 43 3.1 Mod `eles a posteriori . . . . 43

3.1.1 Combinaison lin ´eaire . . . 44

3.1.2 Approches dites ”explicatives” : arbres et r `egles de d ´ecision . . . 44

3.1.3 Approches dites non explicatives . . . 47

(7)

3.1.5 M ´ethodologie d’optimisation des fonctions de score a posteriori . 50

3.2 Evaluation des fonctions de score a posteriori . . . .´ 50

3.2.1 R ´epartition des candidats par terme de score . . . 51

3.2.2 Weka . . . 51

3.2.3 ROGERnon lin ´eaire . . . 53

3.3 Conclusions sur la fonction de score a posteriori . . . . 55

4 Approche multi- ´echelle 57 4.1 Principe de l’approche multi- ´echelle . . . 57

4.1.1 Repr ´esentation g ´eom ´etrique gros-grain des acides amin ´es et des acides nucl ´eiques . . . 57

4.1.2 Mesure des termes g ´eom ´etriques `a l’ ´echelle gros-grain . . . 60

4.1.3 Termes g ´eom ´etriques `a l’ ´echelle gros-grain . . . 64

4.1.4 Donn ´ees et fonctions de score `a l’ ´echelle gros-grain . . . 65

4.2 Optimisation de la fonction de score gros-grain . . . 66

4.2.1 M ´ethodologie d’optimisation de la fonction de score gros-grain . 66 4.3 Evaluation de l’interaction `a l’ ´echelle gros-grain . . . .´ 67

4.3.1 Etude des valeurs des mesures g ´eom ´etriques . . . .´ 68

4.3.2 Evaluation de la fonction de score gros-grain . . . .´ 73

4.3.2.1 Poids . . . 74

4.3.2.2 Evaluation de la fonction de score gros-grain . . . .´ 76

4.3.2.3 Comparaison avec contrainte `a poids positifs . . . 78

4.3.2.4 Comparaison avec valeurs de centrage . . . 79

4.4 Conclusions sur la fonction de score gros-grain . . . 80

5 Discussion biologique 83 5.1 Limites inh ´erentes `a la construction de fonctions de score obtenues par apprentissage . . . 83

5.1.1 Une source de donn ´ees exp ´erimentales en constante ´evolution . 83 5.1.2 Influence du nettoyage des donn ´ees . . . 84

5.1.2.1 Valeurs manquantes . . . 84

5.1.2.2 Acides amin ´es et nucl ´eiques non standards . . . 84

5.1.2.3 Solvant et ions . . . 86

5.1.3 Influence du choix de la m ´ethode d’ ´evaluation . . . 88

(8)

6 Conclusion et perspectives 95

6.1 Int ´egration de connaissances a priori de contextes proches . . . . 95

6.2 Extraction des donn ´ees et complexit ´es des mod `eles . . . 96

6.3 Pr ´edictions multi- ´echelle . . . 97

Bibliographie 103

(9)
(10)

Table des figures

1 Du g `ene `a la prot ´eine . . . xvii

2 Les diff ´erents niveaux de structure . . . xix

3 Formes D et L d’un acide amin ´e . . . xix

4 Les 20 acides amin ´es usuels . . . xx

5 Les nucl ´eotides . . . xxi

6 G ´eom ´etrie de la liaison peptidique . . . xxii

7 Appariement des nucl ´eotides et h ´elice d’ADN . . . xxii

8 H ´elice α . . . xxiv

9 Brins β . . . xxv

10 Motifs de structure secondaire d’ARN . . . xxvi

11 Pr ´edictions issues d’une session de CASP . . . xxx

12 Sch ´ema de principe de d ´etection des interactions prot ´eine-prot ´eine par double-hybride chez la levure . . . xxxiii

13 Le probl `eme de l’amarrage . . . xxxiv

14 Tessellation de Vorono¨ı et constructions d ´eriv ´ees . . . xxxviii

15 Exemples de courbe ROC et explications . . . xlv 1.1 Diagramme de Venn du nombre de complexes par jeu de donn ´ees externe 3 1.2 Repr ´esentation sch ´ematique du calcul de l’alignement pour le LRMSDet le IRMSD . . . 6

1.3 Exemple de diagramme d’EvsRMS . . . 9

1.4 Illustration du score d’enrichissement sur une courbe EvsRMS . . . 10

2.1 Espace de recherche des candidats d’une interaction entre 2 mol ´ecules 12 2.2 Coordonn ´ees torsionnelles pour la manipulation des structures 3D . . . 14

2.3 Pr ´esentation g ´en ´erale des scores physico-chimiques . . . 18

2.4 Pr ´esentation de l’ ´energie de Van der Waals . . . 19

2.5 Exemples de diagrammes d’EvsRMS pour ROS . . . 24

2.6 Meilleurs exemples de diagrammes d’EvsRMS pour ROS . . . 24

2.7 Illustration de l’algorithme g ´en ´eral de ROGER . . . 29

2.8 M ´ethodologie d’optimisation de la fonction de score atomique . . . 30

2.9 R ´epartition de la valeur des coefficients par poids et contrainte . . . 33

2.10 R ´epartition de la valeur des coefficients par poids . . . 34

2.11 Courbes ROC de ROS et POS sur la PRIDB et les Benchmarks . . . . . 36

(11)

2.13 Diagrammes d’EvsRMS d’interactions diff ´erentes propos ´ees par POS . 38

2.14 Diagrammes d’EvsRMS d’interactions alternatives propos ´ees par POS . 38

3.1 Exemple d’arbre de d ´ecision . . . 45

3.2 Arbre de d ´ecision appris avec J48 sur la PRIDB . . . 54

4.1 Mod `ele gros-grain : exemple de l’uracile . . . 58

4.2 Illustration de la construction intuitive d’un diagramme de Vorono¨ı . . . . 61

4.3 Exemple de triangulation de Delaunay, dual du diagramme de Vorono¨ı . 61 4.4 Construction d’une triangulation de Delaunay . . . 62

4.5 L’interface d’une tessellation de Vorono¨ı . . . 63

4.6 Le solvant `a l’interface d’une tessellation de Vorono¨ı . . . 63

4.7 Mesure des param `etres gros-grain `a partir du diagramme de Vorono¨ı . 64 4.8 Diagrammes d’EvsRMS pour POS avec entonnoirs . . . 67

4.9 Interaction avec le solvant explicite du mod `ele gros-grain . . . 68

4.10 Courbes de densit ´e des termes de score P1 et P2 . . . 70

4.11 Courbes de densit ´e des termes de score P3 d’acides amin ´es . . . 71

4.12 Courbes de densit ´e des termes de score P3 des acides nucl ´eiques . . . 73

4.13 Coefficients de P1 et P3 : la surface d’interaction et le nombre d’acides amin ´es et nucl ´eiques . . . 74

4.14 Coefficients de P3 : les proportions d’acides amin ´es et nucl ´eiques . . . 75

4.15 Coefficients de P4 : les volumes m ´edians . . . 76

4.16 Exemple de fonction avec valeurs de centrage . . . 80

5.1 Structure 3D de 3 complexes prot ´eine-ARN : ´etude de cas des partenaires 86 5.2 Diagramme EvsRMS des 3 complexes de l’ ´etude de cas des partenaires 87 5.3 Structure 3D de 3 complexes prot ´eine-ARN : ´etude de cas du solvant et des ions . . . 88

5.4 Diagramme EvsRMS des 3 complexes de l’ ´etude de cas du solvant et des ions . . . 89

5.5 Diagramme EvsRMS de 3 complexes avec faible score d’enrichissement 90 5.6 Diagramme EvsRMS de 3 complexes . . . 92

5.7 Structure 3D d’une interaction de type clef-serrure . . . 93

S1 Diagrammes par complexe de l’ ´energie en fonction du IRMSD(EvsRMS) 123 S2 Diagrammes EvsRMS pour les Benchmarks I et II . . . 137

(12)

Liste des tableaux

1 Matrice de confusion `a deux classes . . . xliii

1.1 Structures 3D, provenance et utilisation pour chaque jeu de donn ´ees . . 7

2.1 Evaluation globale de ROS sur la P´ RIDB, au seuil du meilleur Fscore . . 22

2.2 Evaluation globale de ROS sur la P´ RIDB, au seuil du top10 . . . 23

2.3 Evaluation des contraintes sur les poids compar ´es `a la fonction de score´ par d ´efaut . . . 32

2.4 Evaluation du mod `ele de pr ´ediction d ´edi ´e par cat ´egorie de complexes .´ 35 2.5 Exemples types de coefficients des termes de score hbond ´elev ´es . . . 39

2.6 Les complexes les plus difficiles `a pr ´edire pour POS, avec filtre . . . 40

3.1 R ´epartition des valeurs de chaque terme de score . . . 52

3.2 Evaluation des classifieurs Weka compar ´es `a R´ OGER lin ´eaire . . . 53

3.3 Evaluation des classifieurs R´ OGER non lin ´eaire compar ´es `a ROGER lin ´eaire . . . 55

4.1 R ´epartition de termes g ´eom ´etriques sur les structures natives de la PRIDB 69 4.2 R ´esultats gros-grain VOR pour la PRIDB: 12 exemples . . . 77

4.3 R ´esultats gros-grain VOR pour la PRIDB: 6 exemples . . . 78

4.4 R ´esultats gros-grain positifs pour la PRIDB : 6 exemples . . . 79

4.5 R ´esultats gros-grain avec valeurs de centrage pour la PRIDB : 6 exemples 81 S1 R ´esultats globaux des complexes de la PRIDB, seuil du Fscore . . . 145

S2 R ´esultats globaux des complexes de la PRIDB, seuil du top10 . . . 148

S3 R ´esultats globaux des Benchmarks I et II . . . 149

S4 R ´esultats globaux des complexes avec prot ´eine non li ´ee . . . 150

S5 R ´esultats pour les complexes des Benchmarks I et II . . . 151

S6 R ´esultats pour les complexes avec prot ´eine non li ´ee des Benchmarks . 152 S7 R ´esultats gros-grain pour les complexes de la PRIDB . . . 155

S8 R ´esultats gros-grain positifs pour les complexes de la PRIDB . . . 158

S9 R ´esultats gros-grain non lin ´eaire pour les complexes de la PRIDB . . . . 161

S10 D ´etails sur les complexes prot ´eine-ARN issus de la PRIDB. . . 165

S11 D ´etails sur les complexes prot ´eine-ARN issus des benchmarks I et II . . 167

(13)
(14)

Ce manuscrit doit son existence `a l’interaction entre une multitude de personnes ´evoluant pour une grande part au sein de l’ ´equipe-projet Inria AMIB (Algorithmes et Mod `eles pour la Biologie Int ´egrative), qui comprend l’ ´equipe bioinformatique du LRI (Laboratoire de Recherche en Informatique) de l’Universit ´e Paris-Sud et l’ ´equipe

bioin-formatique du LIX (Laboratoire d’Inbioin-formatique de Polytechnique) de l’ ´Ecole

Polytech-nique. Je souhaite ici dresser un panorama de ces personnes, panorama qui ne se veut ni exhaustif, ni tri ´e par score ou m ´erite.

J’aimerais tout d’abord remercier mes directeurs de th `ese dans leur ensemble pour nos discussions scientifiques et pour leur implication au rythme de nos nombreuses r ´eunions. Et plus sp ´ecifiquement : Julie Bernauer, pour sa minutie et ses mises en perspective ; J ´er ˆome Az ´e, pour son ´ecoute et ses propos rassurants ; Christine Froide-vaux, pour sa rigueur et sa supervision tout au long des diff ´erentes ´etapes de la th `ese. Ce sont mes encadrants qui ont contribu ´e `a me former sur ce qu’aucun manuel n’a su me transmettre.

Je tiens aussi `a remercier l’ ´equipe bioinfo AMIB au complet pour cette ambiance de travail `a la fois studieuse et agr ´eable. Je remercie aussi plus particuli `erement les doctorants de l’ ´equipe bioinfo AMIB pour leur soutien en cas de besoin et leurs sujets de discussion passionnants sans cesse renouvel ´es.

Merci aussi `a Sid Chaudhury et Jeff Grey pour leurs conseils avis ´es en mati `ere de pr ´ediction structurale.

Je remercie Philippe Dague et B ´eatrice Duval pour avoir accept ´e de faire partie de mon jury de th `ese, ainsi qu’Anne Poupon et C ´eline Rouveirol pour avoir aussi accept ´e d’ ˆetre les rapporteurs de ce manuscrit.

Un grand merci aux ´equipes techniques du LRI et du LIX pour leur efficacit ´e et leur aide au jour le jour sur le support informatique, ainsi que les ´equipes administratives

du LRI comme du LIX et le secr ´etariat de l’ ´Ecole doctorale pour leur patience.

Je remercie l’ ´equipe de communication d’Inria pour leur sympathie et les journ ´ees de vulgarisation tr `es instructives. Merci aussi au SIP (Service d’Insertion Profession-nelle) pour ses formations sur l’ ´ecriture de textes scientifiques et la prise de parole. Et merci `a Mich `ele Sebag pour ses cours d’apprentissage automatis ´e.

Je souhaiterais ´egalement remercier Anne Fourier, pour sa compr ´ehension, ainsi que son soutien inconditionnel durant les nuits blanches – ou presque – improvis ´ees et les r ´eveils difficiles associ ´es.

Je tiens aussi `a signaler qu’une grande partie des calculs n ´ecessaires aux r ´esultats ´evalu ´es au cours de cette th `ese n’auraient pas vu le jour en moins de trois ans sans la participation de certaines ressources de calcul. Parmi ces ressources se trouvent le cluster de l’ ´equipe bioinfo AMIB, celui du LRI, ainsi que les ressources de CHP (Cal-cul Haute Performance) du TGCC (Tr `es Grand Centre de cal(Cal-cul du CEA), l’allocation

t2013077065 attribu ´ee par Genci (Grand ´Equipement National de Calcul Intensif).

(15)
(16)

Introduction

1

Contexte

Les complexes prot ´eine-ARN jouent un r ˆole majeur dans la cellule. Ils sont im-pliqu ´es dans de nombreux processus cellulaires tels que la r ´eplication et la transcrip-tion des ARN messagers. Leur r ´egulatranscrip-tion est souvent clef dans les m ´ecanismes qui

mettent en jeu de larges machineries mol ´eculaires (comme le RISC, RNA-Induced

Silencing Complex) impliqu ´ees dans les cancers. Les interactions prot ´eine-ARN pr

´e-sentent donc un grand int ´er ˆet pour les ´etudes `a vis ´ee th ´erapeutique [60]. Les prot ´eines ´etant capables d’interagir avec l’ARN sont nombreuses et vari ´ees : leur structure met en œuvre de nombreux domaines structuraux. Entre autres, les domaines RRM et dsRDB montrent tous une activit ´e de liaison `a l’ARN et sont tr `es ´etudi ´es [49]. Ces derni `eres ann ´ees, les techniques exp ´erimentales de r ´esolution ont mis en ´evidence de nouvelles structures d’ARN et de complexes prot ´eines-ARN. Gr ˆace `a la cristallogra-phie [133] et `a la r ´esonance magn ´etique nucl ´eaire (RMN) [227, 239], nous disposons aujourd’hui de structures `a haute r ´esolution qui permettent de mieux comprendre les fonctions des ARN et leurs modes d’association [44, 78]. D’autres m ´ethodes exp ´eri-mentales permettent quant `a elles d’ ´etudier `a basse r ´esolution des structures beau-coup plus grandes [138, 166, 179]. Les exp ´eriences sur les mol ´ecules uniques four-nissent m ˆeme des donn ´ees `a haute r ´esolution [270] et la conception de mol ´ecules d’ARN est d ´esormais accessible [45]. Malgr ´e ces avanc ´ees majeures en biologie structurale pour les ARN et les complexes prot ´eine-ARN, le nombre de structures disponibles dans la Protein Data Bank, base de donn ´ees exp ´erimentale de r ´ef ´erence, reste faible : de l’ordre d’un ou deux milliers. La mod ´elisation et la pr ´ediction de ces complexes sont donc n ´ecessaires, bien que difficiles [203].

La mod ´elisation des assemblages mol ´eculaires est un probl `eme complexe et pour lequel de nombreuses m ´ethodes de pr ´ediction et d’ ´evaluation des r ´esultats ont ´et ´e

d ´evelopp ´ees [173, 181, 249]. Le challenge international CAPRI (Critical Assessment

of PRediction of Interactions)1 [121], qui ´evalue les pr ´edictions faites `a l’aveugle, a montr ´e que, malgr ´e de grands progr `es, les m ´ethodes actuelles d’amarrage ont besoin d’une grande quantit ´e et d’une grande vari ´et ´e de donn ´ees exp ´erimentales [67]. Bien que les techniques r ´ecentes soient capables de mieux pr ´edire et prendre en compte les ions et mol ´ecules d’eau qui interviennent dans les interactions [146], la flexibilit ´e des mol ´ecules reste un frein majeur. M ˆeme s’il n’est pas aujourd’hui possible de pr ´edire

(17)

les affinit ´es de liaison entre mol ´ecules, l’originalit ´e et la qualit ´e des premiers r ´esultats obtenus sont encourageantes [146].

Les interactions entre prot ´eines et ARN sont difficiles `a pr ´edire, principalement pour deux raisons : la flexibilit ´e des mol ´ecules d’ARN d’une part et les forces ´electrostatiques qui guident l’interaction des mol ´ecules d’ARN charg ´ees n ´egativement d’autre part. Les progr `es r ´ecents des techniques de pr ´ediction de structure d’ARN et de repliement [65, 66, 142, 195, 217] permettent de prendre en compte la flexibilit ´e de l’ARN, mais le plus souvent `a l’ ´echelle atomique uniquement [85] et ne permettent pas ais ´ement l’int ´egration dans une proc ´edure d’amarrage. Cela ne pourra ˆetre fait qu’en disposant de fonctions de score assez performantes pour s ´electionner les bonnes conformations. Les adaptations gros-grain qui permettent de r ´eduire notoirement les phases initiales de recherche sont int ´eressantes [153, 229] et les champs de forces statistiques d ´edi ´es [43, 113, 205, 247, 269] sont prometteurs. Toutefois, ces optimisations sont souvent bas ´ees sur de simples mesures et font peu usage des jeux de donn ´ees `a valeur ajout ´ee

disponibles dans la communaut ´e. La Protein-RNA Interface DataBase (PRIDB) [152]

fournit des jeux de donn ´ees nettoy ´es de qualit ´e. Disponibles `a diff ´erents niveaux de redondance, ils permettent des mesures atomiques pr ´ecises. Les trois jeux d’essais conc¸us pour l’amarrage protein-ARN et disponibles dans la litt ´erature [9, 112, 204] permettent d’ ´evaluer les pr ´edictions.

Pour l’amarrage, la disponibilit ´e de donn ´ees structurales est fondamentale pour les m ´ethodes d’apprentissage. Plusieurs m ´ethodes issues de l’apprentissage ont ´et ´e d ´evelopp ´ees pour les complexes prot ´eine-prot ´eine [6, 18, 15, 22, 27]. Ces m ´ethodes se sont av ´er ´ees efficaces pour la r ´e ´evaluation a posteriori (rescoring) et l’optimisation

d’exp ´eriences d’amarrage in silico, comme l’ont montr ´e les derni `eres ´editions de CAPRI

[251, 272]. Les techniques d’apprentissage sont donc de plus en plus ´etudi ´ees et se

sont d ´evelopp ´ees au sein de la communaut ´e CAPRI[148].

Dans ce travail, je me suis int ´eress ´e au d ´eveloppement de nouvelles m ´ethodes d’apprentissage pour les complexes prot ´eine-ARN. Dans cette introduction, apr `es avoir pr ´esent ´e la structure des diff ´erentes mol ´ecules mises en jeu ainsi que leurs sp ´ecificit ´es structurales, je d ´etaillerai les diff ´erents mod `eles de repr ´esentation disponibles. Ensuite, je d ´ecrirai le principe des m ´ethodes d’amarrage et de score. Et j’aborderai enfin les principes et m ´ethodes d’apprentissage en lien avec le probl `eme de l’amarrage.

2

Structure des prot ´eines et des ARN

(18)

prot ´eine en cours de synth `ese. Les ARNt ont une structure tr `es particuli `ere, dite en tr `efle du fait de leur forme en repr ´esentation 2D.

E H Y W D A M V S N Noyau ADN ARN polymérase ARN messager ARN de transfert Acide aminé Ribosome Protéine TRANSCRIPTION TRADUCTION E C

FIGURE1 – Du g `ene `a la prot ´eine. Le g `ene (en bleu clair), appartenant `a une mol ´ecule d’ADN, est transcrit en ARN messager (en beige) par un enzyme : l’ARN polym ´erase. Puis l’ARN messager est traduit en prot ´eine dans le ribosome. `A cette traduction par-ticipent notamment les ARN de transfert. Image de J. Bernauer.

Dans les conditions physiologiques, la prot ´eine se replie, adoptant par ce biais une conformation compacte sp ´ecifique. Ce repliement peut ˆetre spontan ´e – par l’interaction de la prot ´eine avec le solvant – ou bien se faire gr ˆace `a des prot ´eines sp ´ecialis ´ees, appel ´ees les chaperonnes. Dans certains cas, une maturation peut se produire par l’ajout de glucides ou bien par le clivage de certaines parties de la prot ´eine. Ensuite, la prot ´eine, mature et repli ´ee, est soit lib ´er ´ee dans le cytoplasme, soit dirig ´ee vers une membrane, soit encore excr ´et ´ee dans le milieu ext ´erieur.

Tout changement, qu’il soit dans les conditions du milieu (temp ´erature, pH, force ionique, pr ´esence d’agents chimiques) ou dans l’enchaˆınement des acides amin ´es (par mutagen `ese ou par modification chimique), peut modifier le repliement de la prot ´eine ou ses interactions et moduler son activit ´e.

(19)

et la complexit ´e de ce ph ´enom `ene est telle que, `a l’heure actuelle, son d ´eroulement est impossible `a d ´ecrire. La structure adopt ´ee par une prot ´eine de m ˆeme que ses interactions avec diff ´erents partenaires peuvent ˆetre d ´etermin ´ees exp ´erimentalement mais cette d ´etermination peut ˆetre longue et difficile, m ˆeme avec l’essor des projets de g ´enomique structurale qui ont mis en place des strat ´egies de r ´esolution de structure

`a haut d ´ebit. ´Etant donn ´e le nombre actuellement connu de s ´equences prot ´eiques

et d’interactions potentielles, la d ´etermination exp ´erimentale de toutes les structures correspondantes n’est pas envisageable. Il faut donc se tourner vers la mod ´elisation, qui tente de pr ´evoir non seulement le repliement des prot ´eines en partant de leurs s ´equences, mais aussi la conformation du complexe `a partir de la structure de chacun de ses partenaires d ´etermin ´ee s ´epar ´ement.

De la m ˆeme fac¸on, le repliement des ARN est d ˆu `a l’interaction entre les nucl ´eotides qui le composent, le solvant et – les mol ´ecules d’ARN ´etant charg ´ees – les ions. Comme pour les prot ´eines, les interactions mises en jeu lors du repliement sont mal connues. La connaissance de ces interactions est rendue encore plus difficile par les aspects ´electrostatiques et les liaisons hydrog `ene tr `es nombreuses. Les mol ´ecules d’ARN sont `a la fois beaucoup plus flexibles et moins stables que les prot ´eines, ce qui rend `a la fois leur r ´esolution exp ´erimentale et leur mod ´elisation plus difficiles.

On d ´efinit plusieurs niveaux d’organisation de la structure des prot ´eines et des acides nucl ´eiques (voir fig. 2) :

– la structure primaire, ou s ´equence, est l’enchaˆınement des acides amin ´es ou des nucl ´eotides ;

– la structure secondaire r ´esulte d’interactions `a courte distance (essentiellement des liaisons hydrog `ene entre atomes). Pour les prot ´eines, elles ne d ´ependent qu’en partie de la nature des chaˆınes lat ´erales des acides amin ´es impliqu ´es : certains segments de la prot ´eine adoptent ainsi une conformation p ´eriodique d’angles di `edres successifs. Pour les ARN, ces interactions sont li ´ees `a la nature des nucl ´eotides et au type d’appariement que ceux-ci peuvent former ;

– la structure tertiaire est la forme fonctionnelle repli ´ee d’une chaˆıne prot ´eique ou nucl ´eique. Elle r ´esulte de l’assemblage selon une topologie d ´etermin ´ee des structures secondaires ;

– la structure quaternaire, qui comprend les complexes, est l’association de plusieurs chaˆınes d’acides amin ´es ou d’acides nucl ´eiques (de chaˆınes identiques ou non).

2.1

Les acides amin ´es

Un acide amin ´e est une mol ´ecule constitu ´ee d’un carbone asym ´etrique (appel ´e

carbone α ou Cα) li ´e `a un groupement carboxyle COOH, un groupement amin ´e NH2,

un hydrog `ene H et un radical R, aussi appel ´e la chaˆıne lat ´erale.

(20)

FIGURE2 – Les diff ´erents niveaux de structure : (A) prot ´eines, (B) ARN. La fonction des

assemblages form ´es est d ´ependante des diff ´erents niveaux. Image de J. Bernauer. R Cα H -OOC +H 3N R Cα H COO -NH3+

L-acide aminé D-acide aminé

FIGURE 3 – Formes D et L d’un acide amin ´e. Ces formes, non superposables, sont

(21)

tous de configuration L (voir fig. 4). Certaines prot ´eines contiennent un petit nombre d’acides amin ´es modifi ´es tels que l’hydroxyproline ou la s ´el ´enocyst ´eine.

H2N CH C CH3 OH O H2N CH C CH OH O CH3 CH3 H2N CH C CH2 OH O CH CH3 CH3 H2N CH C CH OH O CH3 CH2 CH3 H2N CH C CH2 OH O H2N CH C CH2 OH O CH2 S CH3 H2N CH C CH2 OH O HN HN C OH O Alanine (Ala,A) Valine (Val,V) Leucine (Leu,L) Isoleucine (Ile,I) Phénylalanine

(Phe, F) Méthionine(Met, M)

Tryptophane (Trp, W)

Proline (Pro, P) Acides aminés non polaires

Acides aminés polaires non chargés

H2N CH C H OH O H2N CH C CH2 OH O C NH2 O H2N CH C CH2 OH O CH2 C NH2 O H2N CH C CH2 OH O SH H2N CH C CH2 OH O OH H2N CH C CH OH O OH CH3 H2N CH C CH2 OH O OH Glycine (Gly, G) Asparagine (Asn, N) Glutamine (Gln,Q) Cystéine (Cys, C) Sérine (Ser, S) Thréonine(Thr, T) Tyrosine (Tyr, Y)

Acides aminés basiques Acides aminés acides

H2N CH C CH2 OH O CH2 CH2 CH2 NH3+ H2N CH C CH2 OH O CH2 CH2 NH C NH2 NH2+ H2N CH C CH2 OH O + HN NH H2N CH C CH2 OH O CH2 C O -O H2N CH C CH2 OH O C O -O Lysine (Lys, K) Arginine (Arg, R) Histidine (His, H) Acide glutamique (Glu, E) Acide aspartique (Asp, D)

FIGURE4 – Les 20 acides amin ´es usuels. Image de J. Bernauer.

La nature du radical R (aussi appel ´e chaˆıne lat ´erale) conf `ere `a chaque acide amin ´e des propri ´et ´es physico-chimiques particuli `eres (encombrement st ´erique, hydrophobie, polarit ´e, acidit ´e, flexibilit ´e, etc.). Ces propri ´et ´es permettent le repliement de la prot ´eine, garantissent ainsi sa stabilit ´e, et permettent son activit ´e biochimique.

2.2

Les acides nucl ´eiques

(22)

FIGURE 5 – Les nucl ´eotides. Image de Wikipedia.

On distingue principalement cinq types de bases : l’ad ´enine (A), la guanine (G), la cytosine (C), l’uracile (U) et la thymine (T). Elles appartiennent `a deux familles diff ´erentes : les purines, qui sont form ´ees de deux cycles aromatiques (l’un `a cinq et l’autre `a six atomes), et les pyrimidines qui sont form ´ees d’un cycle aromatique `a six atomes. L’ARN contient principalement les quatre bases A,U,G et C. Il existe aussi d’autres nucl ´eotides parfois en interaction dans un complexe prot ´eine-ARN : ce sont les nucl ´eotides non standards. Ces nucl ´eotides non standards sont g ´en ´eralement obtenus par l’ajout ou le retrait d’un groupement chimique `a la base azot ´ee.

2.3

La structure primaire ou s ´equence

2.3.1 D ´efinition

La structure primaire d’une prot ´eine, ´egalement appel ´ee chaˆıne polypeptidique, est l’enchaˆınement de ses acides amin ´es. Lors de la traduction, le groupement acide d’un acide amin ´e est li ´e au groupement amin ´e de l’acide amin ´e suivant ; cette liaison est appel ´ee liaison peptidique. La nature de cette liaison impose certaines contraintes spatiales : en particulier, le C et le O du groupement carboxyle du premier acide amin ´e,

ainsi que le N et le Cα de l’acide amin ´e suivant sont coplanaires (voir fig. 6).

Les liaisons covalentes ´etablies lors de la traduction ne sont g ´en ´eralement pas modifi ´ees. Les exceptions peuvent ˆetre la coupure de certaines parties de la chaˆıne prot ´eique, l’ ´etablissement de ponts disulfure entre deux cyst ´eines ou encore la liaison avec des glucides lors de la maturation. Une prot ´eine comprend entre 30 et 30 000 acides amin ´es, la moyenne se situant autour de 330 [268]. On appelle squelette de la

prot ´eine, la chaˆıne des N, Cα, C, et O de tous les acides amin ´es qui la constituent.

(23)

FIGURE6 – G ´eom ´etrie de la liaison peptidique telle que d ´ecrite par Linus Pauling [197], figure 1.

FIGURE 7 – Appariement des nucl ´eotides et h ´elice d’ADN. Image adapt ´ee de

(24)

2.3.2 D ´etermination

La d ´etermination de la s ´equence d’une prot ´eine est une ´etape indispensable de son ´etude. En effet, la s ´equence donne non seulement des informations sur le repliement de la prot ´eine (surtout s’il est possible de d ´etecter des similitudes avec des prot ´eines dont la structure est connue), mais ´egalement sur sa fonction et sur sa localisation cellulaire.

Cette d ´etermination se fait g ´en ´eralement de mani `ere indirecte, par traduction de la s ´equence du g `ene. De nombreuses techniques peuvent ˆetre utilis ´ees `a des fins de s ´equenc¸age `a grande ´echelle [111].

Cette m ´ethode ne permet cependant pas de connaˆıtre d’ ´elements tels que les ´ev ´enements post-traductionnels, en particulier les substitutions, les glycosylations ou les d ´el ´etions d’une partie de la chaˆıne. Pour connaˆıtre directement la structure primaire d’une prot ´eine de petite taille (moins de 150 acides amin ´es), il est possible d’utiliser la spectroscopie de masse [237]. Mais la s ´equence peut ´egalement ˆetre d ´ecoup ´ee – par digestion enzymatique ou chimique – en tronc¸ons d’une longueur inf ´erieure `a 30 acides amin ´es. La s ´equence de l’ensemble de ces tronc¸ons peut ensuite ˆetre d ´etermin ´ee par micro-s ´equenc¸age.

La d ´etermination d’une s ´equence d’ARN se fait par s ´equenc¸age, soit directement, soit par conversion en ADN compl ´ementaire (ADNc) `a l’aide d’une transcriptase in-verse.

2.4

La structure secondaire

2.4.1 D ´efinition

On appelle structure secondaire r ´eguli `ere une partie de la chaˆıne adoptant une conformation p ´eriodique. Ces structures sont stabilis ´ees par des r ´eseaux de liaisons hydrog `ene entre les acides amin ´es non voisins dans la chaˆıne polypeptidique.

Les premi `eres structures secondaires ont ´et ´e d ´efinies par Linus Pauling en 1951 [196, 197] : l’h ´elice α et le brin β. Ce sont deux structures secondaires tr `es largement majoritaires dans les prot ´eines. Ces organisations mol ´eculaires d’une part minimisent les g ˆenes st ´eriques et les r ´epulsions ´electrostatiques entre les chaˆınes lat ´erales et maximisent le nombre de liaisons hydrog `ene : elles sont donc tr `es largement favoris ´ees [128].

Dans une prot ´eine, en moyenne, la moiti ´e des acides amin ´es est impliqu ´ee dans des structures secondaires r ´eguli `eres. L’autre moiti ´e des r ´esidus se trouve impliqu ´ee dans des boucles reliant entre elles les structures secondaires r ´eguli `eres. En moyenne, la longueur d’un brin β est de cinq acides amin ´es, celle d’une h ´elice α est de six acides amin ´es, tandis que celle d’une boucle est de douze acides amin ´es [51].

L’h ´elice α est stabilis ´ee par des liaisons hydrog `ene entre des acides amin ´es de la m ˆeme h ´elice – des acides amin ´es distants de seulement 3, 5 r ´esidus en moyenne dans la chaˆıne polypeptidique (voir fig. 8). M ˆeme isol ´ee, l’h ´elice α est stable.

(25)

FIGURE8 – H ´elice α telle que repr ´esent ´ee dans l’article original de Linus Pauling [197],

(26)

– on parle alors de brins parall `eles – ou bien ˆetre positionn ´es alternativement dans un sens et dans l’autre – on parle alors de brins antiparall `eles. Les liaisons hydrog `ene

FIGURE9 – Brins β tels que repr ´esent ´es dans l’article original de Linus Pauling [196].

assurant la coh ´esion des acides amin ´es entre eux s’ ´etablissent entre acides amin ´es distants dans la s ´equence.

La quantit ´e et l’agencement des structures secondaires r ´eguli `eres conduisent `a classer les prot ´eines en cinq cat ´egories : tout-α, tout-β, α/β (alternance d’h ´elices α et de brins β), α+β (structures contenant des h ´elices α et des brins β sans alternance), et ”autres” [185, 191].

La structure secondaire des ARN correspond aux motifs cr ´e ´es par les diff ´erents appariements des nucl ´eotides. Alors que l’ADN existe principalement sous forme de doubles h ´elices compl `etement appari ´ees, l’ARN est souvent simple brin et forme de nombreux motifs vari ´es. L’ARN est en effet plus flexible et peut former des structures plus complexes, du fait des liaisons hydrog `ene possibles avec le groupement hydroxyle du sucre.

On distingue plusieurs motifs de structures secondaires pour l’ARN : les h ´elices et diff ´erents types de boucles. Les enchaˆınements possibles de ces ´el ´ements sont parfois class ´es en familles de structures secondaires : les tetraloops, les pseudonœuds, les tiges-boucles, etc.

Bien qu’ ´etant un motif de structure tertiaire, pour les acides nucl ´eiques, l’h ´elice d ´epend de la structure secondaire : en effet, elle correspond `a une r ´egion de structure secondaire form ´ee de paires de bases cons ´ecutives.

La tige-boucle est un motif qui correspond `a une h ´elice termin ´ee par une courte boucle de nucl ´eotides non appari ´es (voir fig. 10). C’est un motif extr ˆemement courant et qu’on retrouve dans des motifs plus grands tels que le tr `efle `a quatre feuilles qui caract ´erise les ARN de transfert. Les boucles internes, s ´erie de bases non appari ´ees au sein d’une h ´elice, et les renflements, r ´egions dans lesquelles un brin est compos ´e de bases ins ´er ´ees ”en plus” non appari ´ees sont aussi fr ´equentes. Ces r ´egions sont aussi parfois appel ´ees jonctions.

(27)

FIGURE 10 – Exemple de motifs de structure secondaire d’ARN : A) la tige boucle B)

le pseudonœud. Image adapt ´ee de Wikipedia.

tiges-boucles et dans laquelle la moiti ´e d’une tige est intercal ´ee entre les deux moiti ´es de l’autre tige (voir fig. 10). Les pseudonœuds se replient en 3D en forme de nœuds mais ne sont pas des nœuds au sens topologique. De multiples processus biologiques reposent sur la formation de pseudonœuds (l’ARN de la t ´elom ´erase humaine par ex-emple). Bien que l’ADN puisse former des pseudonœuds, ceux-ci ne sont trouv ´es naturellement que chez les ARN.

2.4.2 D ´etermination `a partir d’une solution

`

A partir d’une solution de prot ´eine purifi ´ee, il est possible d’estimer la composition globale en structures secondaires r ´eguli `eres (nombre d’acides amin ´es participant `a des brins β ou `a des h ´elices α) par des m ´ethodes spectroscopiques :

– dichro¨ısme circulaire vibrationnel ou ultra-violet [194] ; – spectroscopie infrarouge [202] ;

– spectroscopie Raman [4] ;

– analyse des d ´eplacements chimiques en RMN (r ´esonance magn ´etique nucl ´eaire) [258].

Cependant, pour les prot ´eines, l’unique moyen de d ´eterminer avec pr ´ecision la position dans la structure tertiaire de ces structures secondaires r ´eguli `eres reste de d ´eterminer compl `etement la structure tertiaire. Pour l’ARN, la structure secondaire est en plus accessible gr ˆace `a la structure tertiaire, mais celle-ci est bien plus difficile `a r ´esoudre exp ´erimentalement. Il est toutefois possible d’obtenir la structure secondaire de fac¸on exp ´erimentale : soit par s ´equenc¸age, soit `a l’aide de m ´ethodes de sondage. On peut citer les sondages par modification chimique utilisant :

– les radicaux hydroxyles, qui attaquent les cycles des sucres expos ´es [129, 246] ; – le DMS (dimethyl sulfate), qui modifie certaines bases en les m ´ethylant, et les

sites qui ne peuvent plus ensuite s’apparier sont d ´etect ´es par RT-PCR [241] ; – le CMCT (1-Cyclohexyl-3-(2-Morpholinoethyl)Carbodiimide metho-p-Toluene

sul-fonate), qui modifie les uridines et les guanines expos ´ees (suivi aussi d’une d ´etection par RT-PCR) [88] ;

– le kethoxal (1,1-Dihydroxy-3-ethoxy-2-butanone), qui modifie aussi les guanines expos ´ees [97] ;

(28)

Primer Extension), qui comprend des r ´eactifs ayant une pr ´ef ´erence pour les

zones flexibles du squelette de l’ARN [176].

Il existe aussi des m ´ethodes de sondage sans traitement chimique (In-line probing) qui permettent de voir les changements structuraux dus aux interactions [97] ou de cartographie par interf ´erence utilisant des analogues de nucl ´eotides (NAIM) [219].

2.4.3 D ´etermination `a partir des coordonn ´ees atomiques

M ˆeme lorsqu’on dispose des coordonn ´ees atomiques d’une prot ´eine, il n’est pas ´evident d’identifier les structures secondaires r ´eguli `eres. Bien ´evidemment, il ne s’agit plus ici de d ´eterminer le nombre et la nature des structures secondaires r ´eguli `eres, mais plut ˆot de d ´eterminer la position exacte de leurs extr ´emit ´es dans la s ´equence. Il existe de nombreux programmes permettant de r ´ealiser l’attribution des structures secondaires des prot ´eines, `a savoir : dire `a quel type de structure secondaire participe chaque acide amin ´e. La comparaison de ces programmes montre que les r ´esultats obtenus par les diff ´erentes m ´ethodes peuvent ˆetre assez diff ´erents au niveau des lim-ites de chaque structure secondaire.

Pour les ARN, la d ´etermination des structures secondaires est bien plus simple. L’attribution d’une structure secondaire aux acides nucl ´eiques des extr ´emit ´es peut ˆetre d ´elicate, mais de nombreux programmes proposent cette d ´etermination.

2.4.4 Pr ´ediction

La pr ´ediction des structures secondaires est une ´etape int ´eressante de l’ ´etude d’une prot ´eine. En effet, elle permet d’ ´emettre des hypoth `eses sur la nature du repliement, aide `a localiser des r ´esidus du site actif, ou encore `a donner une hypoth `ese quant `a la localisation de la prot ´eine dans la cellule (en particulier pour les prot ´eines mem-branaires).

Il existe un certain nombre de logiciels de pr ´ediction de structure secondaire, fond ´es sur des m ´ethodes diff ´erentes [87, 216]. D ´esormais, les pr ´edictions obtenues sont

ex-actes `a plus de 75 %, comme le montrent les r ´esultats de l’exp ´erience CASP.

De la m ˆeme fac¸on, la pr ´ediction des structures secondaires est un champ de recherche tr `es actif. De nombreuses techniques ont ´et ´e d ´evelopp ´ees [110, 171, 210, 230, 274]. Une des difficult ´es majeures est ensuite de savoir dans quelle mesure les structures locales des bases affectent la structure tertiaire des ARN.

2.5

La structure tertiaire

2.5.1 D ´efinition

(29)

Les chaˆınes polypeptidiques de grande taille (plus de 200 acides amin ´es) se replient souvent en plusieurs r ´egions fonctionnelles. On parle de domaine si ces unit ´es fonc-tionnelles adoptent un repliement stable lorsqu’elles sont isol ´ees.

Quand deux s ´equences prot ´eiques pr ´esentent plus de 30 % d’identit ´e de s ´equence, elles adoptent le m ˆeme repliement [47, 221]. En dessous de ce seuil, il est difficile de pr ´evoir, par les m ´ethodes classiques d’alignement de s ´equence, si deux prot ´eines vont adopter la m ˆeme structure tertiaire. De plus, certaines prot ´eines adoptent des repliements similaires sans pr ´esenter d’identit ´e de s ´equence d ´etectable ; c’est le cas notamment de la superfamille des immunoglobulines [102].

Le repliement repose principalement sur des interactions `a courte distance. Ces interactions ont lieu, d’une part, entre les acides amin ´es enfouis dans la prot ´eine, et, d’autre part, entre les acides amin ´es de la surface et les mol ´ecules du solvant [215]. Ces interactions sont des liaisons hydrog `ene, des ponts salins ou des liaisons de type Van der Waals.

La structure tertiaire des ARN est, de la m ˆeme fac¸on, la description du repliement de la chaˆıne polynucl ´eotidique en sa forme 3D fonctionnelle. Celle-ci repose princi-palement sur les appariements Watson-Crick (GC et AU) qui forment les h ´elices. Dans les acides nucl ´eiques, les h ´elices sont des polym `eres en forme de spirale, en g ´en ´eral droite, contenant deux brins de nucl ´eotides appari ´es. Un tour d’h ´elice est constitu ´e

d’environ 10 nucl ´eotides et contient un grand et un petit sillon. ´Etant donn ´e la diff ´erence

de largeur entre le petit et le grand sillon, de nombreuses prot ´eines se lient par le grand sillon. De nombreux types d’h ´elices sont possibles : pour l’ARN, on rencontre princi-palement des h ´elices A.

2.5.2 D ´etermination

La premi `ere structure de prot ´eine r ´esolue a ´et ´e celle de la myoglobine [134] par

cristallographie aux rayons X. `A l’heure actuelle, la Protein Data Bank (PDB) [13, 14],

banque de donn ´ees des structures tridimensionnelles des prot ´eines, contient plus de 33 000 fichiers, dont environ 28 000 correspondent `a des structures r ´esolues par cristallographie et 5 000 `a des structures r ´esolues par RMN (dans sa version PDB 2004

archives release #1). D’autres m ´ethodes de r ´esolution de structure peuvent aussi ˆetre

utilis ´ees, mais elles restent pour l’instant moins efficaces.

Ces m ´ethodes, m ˆeme si leurs performances se sont beaucoup am ´elior ´ees, en particulier avec l’apparition des projets de g ´enomique structurale, restent tributaires de conditions exp ´erimentales restrictives. La cristallographie n ´ecessite l’obtention de cristaux diffractants, ce qui demande beaucoup de mat ´eriel et de travail. Quant `a la RMN, m ˆeme si la contrainte du cristal est supprim ´ee, elle ne peut s’appliquer que sur des prot ´eines relativement petites (moins de 300 r ´esidus) et il faut obtenir une

quan-tit ´e importante de solution de prot ´eine pure `a plus de 95 %. ´Etant donn ´e le nombre

de s ´equences connues `a l’heure actuelle, il n’est donc pas envisageable de r ´esoudre toutes les structures correspondantes.

Par exemple pour la cristallographie X, selon la prot ´eine et la qualit ´e du cristal,

on connaˆıt la structure avec une r ´esolution plus ou moins bonne. `A basse r ´esolution

(30)

`

A moyenne r ´esolution, on peut observer les interactions entre acides amin ´es, en

par-ticulier les liaisons hydrog `ene et les interactions de type Van der Waals. `A haute

r ´esolution (moins de 1.5 ˚A), on peut d ´eterminer avec pr ´ecision longueurs et angles des

liaisons, l’hydratation, et les mouvements atomiques autour des positions d’ ´equilibre. Ces m ´ethodes sont aussi utilis ´ees pour les ARN, mais ceux-ci sont plus flexibles et beaucoup moins stables, ce qui rend leur r ´esolution beaucoup plus complexe. Alors que la Protein Data Bank contient aujourd’hui plus de 100 000 structures, quelques milliers d’entre elles seulement correspondent `a des structures d’ARN.

2.5.3 Pr ´ediction

Mod ´elisation par homologie Lorsqu’on peut ´etablir une similitude entre la s ´equence

dont on cherche la structure et une s ´equence dont la structure tridimensionnelle est connue (support), il est possible de construire un mod `ele de la structure recherch ´ee.

Un mod `ele obtenu de la sorte est d’autant plus pr ´ecis que l’identit ´e de s ´equence en-tre le support et la s ´equence `a mod ´eliser est forte. Pour de faibles taux d’identit ´e, on ne connaˆıt avec pr ´ecision, dans le mod `ele, que les acides amin ´es strictement conserv ´es, et les parties ne comportant pas de longues insertions/d ´el ´etions. Le mod `ele obtenu n’est donc pas l’ ´equivalent d’une structure d ´etermin ´ee par des m ´ethodes physiques. Cependant, il rend souvent compte du comportement du site actif ou encore des par-ties de la prot ´eine n ´ecessaires `a son repliement ou `a son interaction avec des parte-naires.

Les m ´ethodes d’enfilage Les m ´ethodes d’enfilage, ou threading, permettent de

tester la compatibilit ´e d’une s ´equence avec un repliement [240]. Dans ce cas, pour une s ´equence donn ´ee, on cherche parmi les structures connues, celle qui est la plus compatible avec la s ´equence dont on dispose.

La mod ´elisation ab initio La finalit ´e des techniques de mod ´elisation ab initio est

de pr ´edire la structure d’une prot ´eine `a partir de sa seule s ´equence. De nombreux mod `eles de calculs sont utilis ´es, faisant appel par exemple `a la dynamique mol ´eculaire. Mais, m ˆeme si les progr `es sont cons ´equents, les r ´esultats sont tr `es variables, comme

l’atteste l’exp ´erience CASP [25] ou l’ ´etat du projet folding@home2.

´

Evaluation des pr ´edictions : l’exp ´erience CASP3 L’exp ´erience CASP (Critical

As-sessment of Methods of Protein Structure Prediction) est une comp ´etition qui a lieu

tous les deux ans depuis 1994 et a pour objectif de tester les m ´ethodes de pr ´ediction de structure. Des prot ´eines, dont la structure vient d’ ˆetre r ´esolue mais pas encore publi ´ee, sont propos ´ees aux pr ´edicteurs. Ceux-ci doivent tenter de pr ´edire, selon la cat ´egorie, la structure ab initio, la structure par homologie ou la structure secondaire.

(31)

Les ´evaluations des pr ´edictions [62, 141, 182] montrent d’importants progr `es dans la pr ´ediction de structure ab initio (voir fig. 11).

FIGURE 11 – Pr ´edictions issues d’une session de CASP. Pr ´edictions de structures

obtenues `a l’aide du logiciel Rosetta [29] pour CASP6. Image originale en couver-ture du journal PROTEINS : Struccouver-ture, Function, and Bioinformatics, volume 61 du 26 septembre 2005.

Ces techniques s’appliquent aux prot ´eines et aux ARN, avec plus de succ `es pour les prot ´eines.

2.6

La structure quaternaire

2.6.1 D ´efinition

La structure quaternaire est la g ´eom ´etrie de l’association de plusieurs sous-unit ´es prot ´eiques ou nucl ´eiques. Certaines prot ´eines ne sont fonctionnelles que sous forme d’oligom `eres. Il existe des oligom `eres form ´es de sous-unit ´es identiques, comme par exemple le t ´etram `ere de la thymidylate synthase X, et des oligom `eres r ´eunissant des sous-unit ´es diff ´erentes, comme les histones. On parlera alors de complexes. Enfin, cer-taines prot ´eines forment des polym `eres, constitu ´es d’un tr `es grand nombre de sous-unit ´es, comme les polym `eres actine/myosine dans les muscles.

(32)

(essentielle-ment des liaisons hydrog `ene, des ponts salins et des interactions hydrophobes) [48, 125].

2.6.2 D ´etermination

L’existence d’oligom `eres de chaˆınes prot ´eiques ou nucl ´eiques, qu’elles soient ou non identiques, peut ˆetre d ´etermin ´ee par filtration sur gel ou centrifugation analytique par exemple. Mais leur existence peut aussi ˆetre d ´etermin ´ee par des m ´ethodes de biochimie et de biologie mol ´eculaire plus pouss ´ees et qui peuvent ˆetre utilis ´ees de mani `ere syst ´ematique, telles que, pour les prot ´eines, l’analyse double-hybride [116], l’analyse par TAP-tag (ou FLAP-tag) coupl ´ee `a la spectrom ´etrie de masse [92, 109]. La g ´eom ´etrie de l’association peut ˆetre d ´etermin ´ee `a basse r ´esolution par diffusion des rayons X ou des neutrons aux petits angles, chromatographie sur gel ou encore par microscopie ´electronique `a la fois pour les prot ´eines ou les ARN.

La connaissance de l’interaction au niveau des acides amin ´es peut se faire, soit directement par la d ´etermination de la structure par cristallographie aux rayons X, soit par l’ ´etude des interactions par RMN, ou encore indirectement, par mutagen `ese dirig ´ee ou modification chimique s ´elective des chaˆınes lat ´erales de certains acides amin ´es. Mais, en plus des contraintes associ ´ees aux deux m ´ethodes vues pr ´ec ´edemment, s’a-joutent les contraintes inh ´erentes aux complexes, telles que la taille, mais aussi, et surtout, leur instabilit ´e. En effet, pour pouvoir ˆetre ´etudi ´e d’un point de vue structural, un complexe doit ˆetre stable dans les conditions requises. Or, de tr `es nombreux com-plexes sont transitoires. Ainsi, m ˆeme s’il est d ´esormais possible d’obtenir la structure de nombreuses prot ´eines isol ´ees de plus en plus rapidement, la r ´esolution des struc-tures de complexes reste difficile.

2.6.3 Pr ´ediction

Le premier mod `ele de complexe prot ´eine-prot ´eine (trypsine/inhibiteur) a ´et ´e r ´ealis ´e en 1972 [20]. C’est en 1978 qu’est apparu le premier algorithme d’amarrage [259]. Les proc ´edures d’amarrage utilisent les coordonn ´ees atomiques des deux macromol ´ecules partenaires, g ´en `erent un grand nombre de conformations et leur attribuent un score [260]. Cette mod ´elisation est en g ´en ´eral assimil ´ee `a la recherche de modes d’asso-ciation compl ´ementaires entre deux mol ´ecules de forme pr ´ed ´efinie. Un certain degr ´e de flexibilit ´e peut parfois ˆetre pris en compte, mais en g ´en ´eral, l’amarrage prot ´eine-prot ´eine et ´eine-prot ´eine-ARN est principalement envisag ´e dans une approche d’associa-tion de corps rigides.

(33)

3

Les complexes prot ´eine-prot ´eine et prot ´eine-ARN

3.1

Fonctions

Au niveau mol ´eculaire, la fonction d’une prot ´eine ou d’un ARN est souvent subor-donn ´ee `a l’interaction avec un certain nombre de partenaires. Les complexes inter-viennent `a de nombreux niveaux et la compr ´ehension de leur m ´ecanisme de forma-tion/association permet de mieux comprendre de nombreux processus. Pour se rendre compte de leur importance, on peut citer des assemblages tels que le ribosome, les anticorps/antig `enes, les capsides virales ou encore les microtubules. Ainsi, la fonction d’une prot ´eine ou d’un ARN ne peut ˆetre envisag ´ee sans tenir compte des interactions.

3.2

D ´etection exp ´erimentale biochimique prot ´eine-prot ´eine

Les interactions prot ´eine-prot ´eine sont pr ´esentes partout et en grand nombre. C’est la raison pour laquelle de nouvelles m ´ethodes exp ´erimentales d’analyse syst ´ematique sont d ´evelopp ´ees [123]. Deux types sont pr ´esent ´es dans la suite, les m ´ethodes d’anal-yse par double-hybride et celles utilisant des marqueurs.

3.2.1 Le double-hybride sur la levure

La premi `ere m ´ethode utilis ´ee pour ´etudier dans la levure les interactions prot ´eine-prot ´eine `a grande ´echelle a ´et ´e l’analyse par double hybride. Cette technique, mise au point en 1989, permet la d ´etection indirecte de l’interaction, car celle-ci induit la formation d’un complexe mol ´eculaire activant un g `ene rapporteur [81] (voir fig. 12). Cependant, dans cette d ´etection, le nombre de faux positifs (les interactions d ´etect ´ees mais non pr ´esentes) et de faux n ´egatifs (les interactions pr ´esentes non d ´etect ´ees) est tr `es important. C’est donc une m ´ethode relativement peu fiable, `a moins de refaire un grand nombre de fois ces exp ´eriences, en plus d’exp ´eriences compl ´ementaires, ce qui est relativement co ˆuteux et long dans une approche g ´enomique.

De plus, cette m ´ethode ne peut d ´etecter dans sa forme originelle que des com-plexes binaires. Or, la d ´etection et la caract ´erisation de comcom-plexes multiprot ´eiques sont tr `es importantes.

Deux ´etudes sur la levure utilisent le double-hybride pour la d ´etection syst ´ematique [116, 248]. Il est toutefois tr `es difficile de comparer ces ´etudes entre elles, en raison principalement des probl `emes de fiabilit ´e dus aux contraintes exp ´erimentales.

3.2.2 Utilisation de marqueurs (TAP-tag et FLAP-tag)

(34)

Gal4 BD X Gal4 AD Y Gal4 BD X Gal4 AD Y Gal4 BD X Gal4 AD Y ARN Polymerase LacZ Interaction protéine-protéine

Identification des colonies bleues

X GalBD

Y GalAD

Vecteur appât Vecteur cible

FIGURE 12 – Sch ´ema de principe de d ´etection des interactions prot ´eine-prot ´eine par double-hybride chez la levure. La prot ´eine Gal4 est l’activateur naturel des diff ´erents

g `enes intervenant dans le m ´etabolisme du galactose. Elle agit en se fixant sur des s ´equences appel ´ees UASG (Upstream Activating Sequence GAL) qui r ´egulent la tran-scription. Les prot ´eines ´etudi ´ees (X et Y), partenaires potentiels d’interaction, sont fusionn ´ees, l’une au domaine de fixation de Gal4 sur l’ADN (domaine DBD ou DNA

Binding Domain), et l’autre au domaine de Gal4 activant la transcription (domaine AC

(35)

dans laquelle les complexes entiers, contenant la prot ´eine marqu ´ee, ont ´et ´e purifi ´es. Ensuite, les complexes ont ´et ´e fractionn ´es par ´electrophor `ese sur gel et leurs com-posants identifi ´es par spectrom ´etrie de masse.

Il est tr `es difficile de comparer les r ´esultats obtenus par ces ´etudes car les jeux utilis ´es ne sont pas identiques et le prot ´eome complet de la levure n’a pas pu ˆetre analys ´e. Globalement, ces ´etudes donnent des r ´esultats en accord avec celles r ´ealis ´ees pr ´ec ´edemment, mais dans le d ´etail, les r ´esultats et la compl ´etude des donn ´ees ne per-mettent pas de conclure.

De plus, il est aussi difficile, pour les m ˆemes raisons, de comparer les ´etudes util-isant des marqueurs et les ´etudes de double-hybride pr ´esent ´ees pr ´ec ´edemment.

L’ensemble de ces ´etudes exp ´erimentales permet de pr ´edire environ 15 000 com-plexes prot ´eine-prot ´eine potentiels pour le g ´enome de la levure. Parmi ces 15 000 complexes, beaucoup s’av `ereront ˆetre des faux positifs et il est certain qu’il existe

´egalement un grand nombre de faux n ´egatifs.

3.3

Les m ´ethodes d’amarrage

3.3.1 Le probl `eme

Le but des m ´ethodes d’amarrage est de pr ´edire la structure d’un complexe `a partir des structures ou mod `eles des partenaires isol ´es (voir fig. 13). Le probl `eme se divise

+

?

A

B

AB

FIGURE13 – Le probl `eme de l’amarrage. Comment associer la prot ´eine A et la prot ´eine

(36)

en deux ´etapes : d’abord, on explore l’espace pour obtenir toutes les conformations possibles et ensuite, on trie ces conformations en esp ´erant classer en premier la con-formation native observ ´ee exp ´erimentalement.

Avec une approximation de corps rigides, si on consid `ere chaque partenaire comme

une sph `ere de 15 ˚A de rayon `a la surface de laquelle les propri ´et ´es atomiques sont

d ´ecrites sur une grille de 1 ˚A, une recherche syst ´ematique pr ´esente 109 modes

dis-tincts d’association [57]. La question est ensuite de d ´eterminer, parmi ces modes d’as-sociation, lequel est le mode natif.

Pour pouvoir acc ´eder aux changements de conformation et aux mouvements des chaˆınes lat ´erales et des bases, le mod `ele doit ˆetre de type ”soft”, c’est- `a-dire que les mol ´ecules doivent pouvoir l ´eg `erement s’interp ´en ´etrer et on doit consid ´erer les mol ´ecules comme des ensembles de sph `eres articul ´ees. Ainsi, il est possible de traiter aussi bien les mol ´ecules issues de r ´esolution de structures de prot ´eines seules,

c’est-`a-dire non-li ´ees (unbound), ou complex ´ees, c’est- c’est-`a-dire li ´ees (bound).

3.3.2 Les algorithmes

Le premier algorithme, invent ´e par Shoshana Wodak et Jo ¨el Janin [124, 259] `a partir des travaux de Cyrus Levinthal [149] r ´ealise une recherche de l’espace sur six degr ´es de libert ´e (cinq rotations et une translation) pour amener les deux mol ´ecules en contact une fois leur orientation fix ´ee, et attribue un score simple en fonction de la surface de contact. Pour gagner du temps sur le calcul de la surface, une approximation `a partir du mod `ele de Levitt [150] est r ´ealis ´ee. Cet algorithme a ´et ´e am ´elior ´e en 1991 `a l’aide d’une minimisation d’ ´energie [46].

D’autres types d’algorithmes, utilisant la compl ´ementarit ´e de surface, ont ´et ´e mis en œuvre `a partir d’une description en points critiques d ´efinis comme des ”trous et bosses” (knobs and holes) [57, 145, 264]. Les solutions donn ´ees correspondent `a une concordance de groupes de quatre points critiques, laquelle est identifi ´ee gr ˆace `a une triangulation de surface comme d ´efinie par M. Connolly en 1985 [56]. Cette m ´ethode a ´et ´e beaucoup am ´elior ´ee en 1991 par H. Wang, avec la mod ´elisation de la surface `a l’aide d’une grille [255].

En 1992, un programme utilisant ces grilles pour les petites mol ´ecules a ´et ´e modifi ´e par I. Kuntz et ses collaborateurs, pour s’appliquer aux complexes prot ´eine-prot ´eine et a permis d’obtenir de bons r ´esultats [175, 232] tout en g ´en ´erant de nombreux faux-positifs.

(37)

3.3.3 La transformation de Fourier

Parmi toutes les m ´ethodes de compl ´ementarit ´e de surface, celle utilisant la trans-formation de Fourier rapide (Fast Fourier Transform ou FFT), apparue d `es 1991 [126], est l’une des plus simples et des plus utilis ´ees [10, 35, 40, 41, 132, 143, 180, 235, 257]. Une grille cubique est trac ´ee, et, `a chaque point, on attribue un poids qui est n ´egatif et important si le point est situ ´e `a l’int ´erieur de la prot ´eine A, nul s’il est `a l’ext ´erieur et 1 s’il est proche de la surface ; on fait de m ˆeme pour la prot ´eine B.

Le produit est donc important et positif (donc d ´efavorable) si les deux volumes mol ´eculaires s’interp ´en `etrent, et n ´egatif (donc favorable) pour les points qui apparti-ennent `a la surface d’une mol ´ecule et au volume de l’autre. Lorsque la mol ´ecule A est translat ´ee par rapport `a la mol ´ecule B, le score peut ˆetre rapidement calcul ´e par transformation de Fourier rapide (FFT), si la grille de A est identique `a la grille de B. La grille doit donc ˆetre red ´efinie `a chaque nouvelle orientation pour que la recherche soit compl `ete.

Cette approche pr ´esente de nombreux avantages : les poids peuvent contenir des informations sur les propri ´et ´es physico-chimiques de la surface, et la r ´esolution peut

ˆetre ajust ´ee en limitant le nombre de termes de Fourier calcul ´es dans la somme. Les r ´esultats obtenus par cette m ´ethode sont relativement bons dans une approche corps rigide [11, 39, 170], mais le temps de calcul associ ´e est trop important pour une approche `a grande ´echelle.

3.3.4 Algorithmes d’amarrage et partitionnement du probl `eme

Ces quinze derni `eres ann ´ees, en particulier gr ˆace `a l’exp ´erience d’amarrage CAPRI

(Critical Assessment of PRediction of Interactions) [118, 119, 120, 122, 261], plusieurs

nouvelles m ´ethodes ont vu le jour [234]. Cette exp ´erience est un test `a l’aveugle des algorithmes de docking de macromol ´ecules qui doivent pr ´edire le mode d’association de deux prot ´eines `a partir de leur structure tridimensionnelle. La structure du complexe, r ´esolue exp ´erimentalement, n’est d ´evoil ´ee aux participants et publi ´ee qu’ `a l’issue des soumissions.

Les nouvelles m ´ethodes d’amarrage utilisent des techniques tr `es vari ´ees telles que le hachage g ´eom ´etrique [83, 115, 188, 189, 190, 220, 225, 262], les algorithmes g ´en ´etiques [91], les harmoniques sph ´eriques [213], la dynamique mol ´eculaire [32, 137, 238], la minimisation Monte-Carlo [100, 226], ou encore des m ´ethodes de min-imisation d’ ´energie ou de d ´etection d’interfaces dirig ´ees par des donn ´ees biologiques [69, 178, 250] (voir section 2.1.1 page 11).

(38)

des atomes, elles ont tout d’abord ´et ´e utilis ´ees pour le repliement et l’amarrage de petites mol ´ecules, puis adapt ´ees `a l’amarrage prot ´eine-prot ´eine [64, 265, 266, 267].

4

La tessellation de Vorono¨ı et ses d ´eriv ´ees pour

l’a-marrage

La premi `ere utilisation connue de la tessellation de Vorono¨ı est la mod ´elisation de la r ´epartition de l’ ´epid ´emie de chol ´era de Londres par John Snow en 1854, dans laque-lle est d ´emontr ´ee que la fontaine au centre de l’ ´epid ´emie est celaque-lle de Broad Street, en plein coeur du quartier de Soho. Depuis lors, les applications utilisant cette con-struction sont nombreuses : en m ´et ´eorologie d’abord, par A.H. Thiessen, en cristallo-graphie par F. Seitz et E. Wigner, qui ont aussi donn ´e leur nom `a cette construction ; mais aussi en physiologie (analyse de la r ´epartition des capillaires dans les muscles), m ´etallurgie (mod ´elisation de la croissance des grains dans les films m ´etalliques), robo-tique (recherche de chemin en pr ´esence d’obstacles) et bien d’autres.

La tessellation de Vorono¨ı, ainsi que les autres tessellations qui en ont ´et ´e d ´eriv ´ees (voir fig. 14), sont aussi beaucoup utilis ´ees en biologie, o `u elles permettent de nom-breuses repr ´esentations des structures des prot ´eines [201].

´

Etant donn ´e un ensemble de points appel ´es centro¨ıdes, la tessellation de Vorono¨ı di-vise l’espace au maximum en autant de r ´egions qu’il y a de points (voir paragraphe 4.1.2 page 60). Chaque r ´egion, appel ´ee cellule de Vorono¨ı, est un poly `edre qui peut ˆetre consid ´er ´e comme la zone d’influence du point autour duquel est trac ´ee la cellule.

4.1

Constructions

Dans le cadre de l’analyse structurale des prot ´eines, la tessellation de Vorono¨ı a ´et ´e utilis ´ee pour la premi `ere fois par Richards en 1974 [211] pour ´evaluer, dans une prot ´eine globulaire, les volumes des atomes, d ´efinis par les volumes de leurs poly `edres de Vorono¨ı. Dans cette ´etude, Richards est le premier `a proposer une solution `a deux probl `emes que l’on retrouve dans toutes les ´etudes qui utilisent cette construction. Tout d’abord, les atomes expos ´es au solvant ayant peu de voisins, leurs cellules de Vorono¨ı sont grandes et ont un volume tr `es grand, peu repr ´esentatif de leurs propri ´et ´es. Ensuite, cette construction consid `ere tous les atomes comme ´equivalents, sans tenir compte de leur nature chimique.

Pour r ´esoudre le premier probl `eme, Richards a plac ´e des mol ´ecules d’eau sur un r ´eseau cubique entourant la prot ´eine et a relax ´e leurs positions. Cette m ´ethode a ´et ´e ensuite affin ´ee par Gerstein et ses collaborateurs [94, 95, 243, 244, 245]. D’autres m ´ethodes ont ´et ´e propos ´ees telles que :

– prendre en consid ´eration uniquement les atomes ayant une cellule de Vorono¨ı de

volume≪raisonnable≫[206] ;

(39)

(a) (b) (c)

(d) (e) (f)

(g) (h)

Diagramme de Voronoï Triangulation de Delaunay

Méthode B de Richards zone non attribuée

Décomposition en polyèdres de Laguerre Union de sphères

α-Complexe Diagramme de Voronoï pondéré

FIGURE 14 – Tessellation de Vorono¨ı et constructions d ´eriv ´ees (a) Construction d’une cellule de Vorono¨ı : on trace la m ´ediatrice entre un point donn ´e et chacun des autres points et ensuite, on consid `ere le plus petit poly `edre d ´efini par ces m ´ediatrices ; c’est la cellule de Vorono¨ı de ce m ˆeme point. (b) On obtient le diagramme de Vorono¨ı (en violet) en r ´ep ´etant l’op ´eration pour tous les points de l’ensemble. (c) La triangulation de Delaunay contient les ar ˆetes roses et les triangles ainsi d ´efinis. C’est le dual du diagramme de Vorono¨ı. (d) Dans la m ´ethode de Richards, on ne consid `ere pas la m ´ediatrice, mais on d ´efinit une droite perpendiculaire au segment qui coupe celui-ci en fonction des poids attribu ´es `a chacun des atomes. Cela laisse une zone non attribu ´ee. (e) Si on remplace les droites pr ´ec ´edentes par les plans radicaux des sph `eres, on obtient `a nouveau un pavage de l’espace : le diagramme de puissance ou tessellation de Laguerre. (f) L’intersection du diagramme de Laguerre et des sph `eres donne ce qu’on appelle l’union des sph `eres. (g) On d ´efinit une r ´egion restreinte comme une boule restreinte `a sa r ´egion de Vorono¨ı. L’α-complexe correspond alors aux ar ˆetes et aux triangles d ´efinis par l’intersection de deux ou trois r ´egions restreintes. L’ α-shape est le domaine de l’α-complexe. (h) La surface de division d’un diagramme de Vorono¨ı pond ´er ´e est d ´efinie par l’ensemble des points dont la distance aux deux points de r ´ef ´erence est ´egale au rayon de la sph `ere correspondante plus une constante. Cette surface n’est pas plane, mais le diagramme correspondant est un pavage de l’espace.

Références

Documents relatifs

Enfin, comme plusieurs protéines de liaison à l’ARN se localisent dans les SG mais aussi dans les P- bodies, nous avons déterminé si CIRP se relocalise également dans ces

[r]

Illustrer avec des images découpées, le texte de l'histoire utilisant un vocabulaire spatial Associer chaque image au texte correspondant à la direction surveillée. e place les

un sous-ensemble de sommets de G dont chaque deux ´el´ements sont reli´es par une arˆete 2. une ´equation de la forme un polynˆ

En rejetant le pourvoi, la Cour de cassation note que « la pratique d’une entreprise qui restreint la concurrence mais est admise tant par le droit europe´en concernant la concur-

Pour avoir au moins 30 presque-natifs et 30 leurres sur les 10 000 candidats générés pour chaque structure native, nous avons utilisé trois gammes de translations et

[r]

On y distingue deux zones, séparées par une frontière qui n’est autre que le lieu de la vapeur saturante sèche (titre massique en vapeur égal à 1).. Dans la zone