ANR : AGENCE NATIONALE DE LA RECHERCHE PROGRAMME : ACI IMPBIO 2003.

(1)

ANR : AGENCE NATIONALE DE LA RECHERCHE PROGRAMME : ACI IMPBIO 2003.

Rapport de fin de projet

( à transmettre en 2 exemplaires )

I - FICHE D’IDENTITE DU PROJET

DECISION D’AIDE N° 03 2 628

Numéro de référence du projet :

IMPBB072

Titre du Projet :

EVOLREP - Impact et évolution des répétitions dans les génomes : interactions entre innovation génétique et fonction biochimique

Coordinateur du projet : Joël Pothier

Tél du coordinateur du projet : 01 44 27 65 82

Mél du coordinateur du projet : jompo@abi.snv.jussieu.fr Laboratoire de rattachement du coordinateur:

Atelier de BioInformatique, Université Pierre et Marie Curie – Paris 6 Adresse postale du laboratoire :

Atelier de BioInformatique – UPMC, 12 Rue Cuvier, 75005 Paris Numéro d'unité (s'il existe) :

Montant global (en KEurosTTC) : 105 000 € Durée : • 3 ans

(2)

Partenaires du Projet

Laboratoire (pas de sigle)

Pothier Joël

Carpentier Mathilde Brouillet Sophie

Atelier de BioInformatique, Université Pierre et Marie Curie (ABI)

Rocha Eduardo Unité Génétique des Génomes Bactériens, URA CNRS 2171, Institut Pasteur (GGB)

Gonçalves Isabelle Houzelstein Denis Netter Pierre

Equipe Structure et Dynamique du Génome, Institut Jacques Monod (SDG)

Coissac Eric Morgat Anne

Equipe Helix, INRIA Rhône-Alpes (HELIX)

Soldano Henry Bouthinon Dominique

Laboratoire d'Informatique de Paris Nord, Université Paris XIII (PNORD)

Crozat Estelle

Geiselmann Johannes Philippe Nadège Schneider Dominique

Laboratoire Adaptation et Pathogénie des Microorganismes, Equipe Contrôle de l’Expression Génique (CEG)

(3)

EVOLREP : Impact et évolution des répétitions dans les génomes : interactions entre innovation génétique et fonction biochimique___________________________________________________ 4 Rappel des objectifs initiaux du projet : ______________________________________________ 4 Contexte : ____________________________________________________________________ 4 Etude intégrée des duplications :___________________________________________________ 4 Rapport final ___________________________________________________________________ 5 Logiciels ou bases réalisés au cours de ce projet : _____________________________________ 5 Méthode et études intégrées des duplications aux trois niveaux ___________________________ 5

Swelfe, un logiciel de recherche « intégrée » de duplications : une même méthode de détection des DDPI pour plusieurs modes de représentation de l’objet biologique ______________________________________________5

Algorithme d'alignement local – auto-alignement ________________________________________________5 Système de scores et estimation de la significativité ______________________________________________7 Scores pour les séquences nucléiques______________________________________________________7 Scores pour les séquences protéiques______________________________________________________7 Estimation de la significativité pour les séquences nucléiques et protéiques________________________7 Scores pour les structures ______________________________________________________________7 Résultats _______________________________________________________________________________11 Structures ____________________________________________________________________________11 Un exemple :_______________________________________________________________________11 Recherche systématique des duplications dans les structures___________________________________12 Séquences protéiques____________________________________________________________________12 Séquences nucléiques ___________________________________________________________________12 Ajustement des 3 niveaux – Résultats___________________________________________________________12 Construction des familles de DDPI _____________________________________________________________14 Mise à la disposition de la communauté des résultats _______________________________________________15 MicrOBI : une approche pragmatique de l'intégration de données en biologie__________________________15 Les données___________________________________________________________________________15 Représentation des données / relations ______________________________________________________15 Intégration des duplications du projet EVOLREP________________________________________________16 Un travail inattendu : trouver les gènes correspondant aux structures PDB____________________________16 Evolution et dynamique de DDPI – analyse comparative ______________________________ 17 Etudes expérimentales sur la dynamique des répétitions proches_______________________________________17 Nouveaux algorithmes et méthodes de détection des répétitions __________________________ 22

Motifs relationnels : Recherche de sous-structures similaires 3D basée sur les positions spatiales relatives des amino–acides (« Triade »). ___________________________________________________________________22

Contexte._______________________________________________________________________________22 KmrOverlap_____________________________________________________________________________22 Recherche des occurrences de motifs relationnels et définition d'un motif complexe par un ensemble

partiellement ordonné de motifs._____________________________________________________________24 RepSeek: recherche de similarités internes longues : _______________________________________________25 Etat actuel___________________________________________________________________ 26 Collaborations internationales ____________________________________________________ 26 Publications liées à l’ACI EVOLREP_______________________________________________ 26 Autres résultats : nouvelles collaborations et thèses.___________________________________ 27 Bibliographie : _______________________________________________________________ 28

(4)

EVOLREP : Impact et évolution des répétitions dans les génomes : interactions entre innovation génétique et fonction

biochimique Rappel des objectifs initiaux du projet :

Contexte :

Les duplications sont des éléments qui jouent un rôle important dans la dynamique des génomes en stimulant les évènements de recombinaison ectopiques. De plus, ces duplications sont une des traces de la fluidité des génomes dont l’analyse apporte le plus d’information.

Chez Saccharomyces cerevisiae, l’étude des duplications intra-chromosomiques au niveau nucléique avait montré une sur-représentation des répétitions directes proches, espacées de moins de 1 kb (DDP). L'analyse des caractéristiques de ces duplications a permis de suggérer un modèle où elles sont créées en tandem, puis remaniées [Achaz et al., 2000].

L’objectif principal de ce projet était d’identifier et de caractériser l’ensemble des DDPI (Duplications Directes Proches Intra-géniques) des gènes codants des organismes microbiens complètement séquencés (archaea, eubactéries et levures) aux trois niveaux de descriptions que sont l’ADN, les séquences protéiques et leur structure tridimensionnelle.

Etude intégrée des duplications :

Ce projet se déclinait en plusieurs points:

1. développer une méthode et un algorithme/programme d’identification intégrée des DDPI aux trois niveaux : séquence du gène, séquence de la protéine et structure tridimensionnelle de la protéine, mettre à disposition de la communauté les résultats

2. étudier l'évolution de ces DDPI par une analyse comparative d'espèces proches pour analyser, par exemple, l'érosion de la similarité entre copies aux différents niveaux considérés, avec études expérimentales à l’appui.

3. Concevoir de nouveaux algorithmes et méthodes de détection des répétitions dans des contextes plus larges que l’analyse des DDPI.

Ces points sont repris dans cet ordre dans le présent rapport.

(5)

Rapport final

Logiciels ou bases réalisés au cours de ce projet :

Nom Description Accès public à

Swelfe Détection de duplication sur structures 3D, séquences protéiques et séquence nucléiques

http://wwwabi.snv.jussieu.fr/public/Swelfe

RepSeek Détection de longues répétitions (sur chromosomes)

http://wwwabi.snv.jussieu.fr/public/RepSeek

Opscan Recherche d’orthologue et

de synténie http://wwwabi.snv.jussieu.fr/public/opscan

Triades Détection de répétitions

3D pas encore disponible publiquement

MicrOBI Base de données http://prabi1.inrialpes.fr/trac/OBITypes

http://www.inria.fr/rapportsactivite/RA2005/hel ix/uid39.html

Méthode et études intégrées des duplications aux trois niveaux

Swelfe, un logiciel de recherche « intégrée » de duplications : une même méthode de détection des DDPI pour plusieurs modes de représentation de l’objet biologique

Initialement appelé « Strep » dans le projet ACI, ce logiciel a été rebaptisé Swelfe. Ce logiciel de recherche de duplications est utilisable aussi bien pour des séquences nucléiques, protéiques et des structures tridimensionnelles de protéines. Le système de score s’adapte en fonction du type de

« séquence » (séquence nucléique, protéique ou structure tridimensionnelle, voir ci-dessous). En plus des duplications, il peut aussi chercher des similarités entre une séquence ou une structure et une banque de séquences ou de structures.

Algorithme d'alignement local – auto-alignement

Les séquences de gènes et de protéines des micro-organismes étant relativement courtes (de l’ordre de quelques milliers de symboles) l’approche optimale par programmation dynamique était la plus adaptée. Nous avons implémenté une version de l’algorithme de recherche de sous-alignements optimaux décrit par Smith et Waterman [Smith et Waterman, 1981] autorisant l’alignement d’une séquence avec elle-même tout en interdisant l’alignement trivial de chacun des symboles avec lui-même.

Pour trouver les motifs répétés "internes" à une structure ou une séquence ("auto-alignement"), il suffit de comparer la séquence (angles, acides aminés ou nucléotides, voir plus loin) à elle-même. Par rapport à l'algorithme de Smith et Waterman, il faut interdire la "diagonale principale" d'alignement - c'est-à-dire mettre les scores d'alignement S(i,i) à une valeur nulle. On ne calcule bien sûr que la moitié de la matrice S d’alignement puisqu’elle est symétrique. L’algorithme implémenté prend en compte des valeurs différentes pour les ouvertures et extensions de gaps. Le meilleur alignement

(6)

local est celui qui possède le meilleur score. Pour calculer les alignements locaux suboptimaux (ceux qui ont les meilleurs scores suivants), on procède de la manière suivante :

- on reprend la matrice S d’alignement précédemment calculée,

- on met à zéro les cases du chemin du meilleur alignement déjà trouvé,

- on ne recalcule que la partie rectangulaire de la matrice d’alignement S à partir du départ du chemin du meilleur alignement, sachant que l’on s’arrête aux cases où le score recalculé est le même que précédemment.

On procède de la sorte pour tous les meilleurs alignements demandés [Waterman & Eggert, 1987].

Pour chercher les répétitions structurales, nous avons utilisé le même algorithme de programmation dynamique en utilisant une représentation « textuelle » de la structure 3D des protéines. En effet, il est très coûteux en temps de calcul de superposer tous les atomes entre deux protéines ; plusieurs heuristiques peuvent être utilisées afin de simplifier les calculs, dont celle de simplifier la représentation tridimensionnelle des protéines. Les méthodes généralement employées sont basées sur l'alignement de structures secondaires (VAST [Gibrat et al, 1996], 3dSEARCH [Singh et Brutlag, 1998, unpublished]) ou sur l'alignement de distances atomiques inter moléculaires (STRUCTAL [Gerstein et Levitt, 1998], LOCK [Singh et Brutlag 1997] ou intra moléculaires (DALI [Holm et Sander, 1993] des carbones α. Il est également possible de représenter une structure par ses coordonnées angulaires internes : soit par les angles Φ et Ψ [Levine et al. 1984], soit par les angles α et τ[Usha et Murthy 1986, Carpentier et al., 2005]. C’est cette dernière solution qui a été mise en œuvre dans Swelfe. Swelfe utilise les coordonnées internes des carbones α (angles α ) pour représenter la structure des protéines.

Cette technique permet de bien décrire la conformation de la protéine au niveau local et simplifie la représentation.

L'angle α est l'angle dièdre entre quatre carbones α consécutifs, et l'angle τ est l'angle entre trois carbones α consécutifs (cf schéma ci-contre).

En fait, le squelette peptidique est complètement décrit par les angles α, τ et la distance entre les Cα. Comme les angles τ et les distances entre Cα sont à peu près constants (100° et 3,8 Angstrom), il suffit de ne prendre en compte que les angles α pour représenter la structure 3D du squelette peptidique d’une protéine.

Les angles α sont calculés à partir des coordonnées de la protéine au format PDB.

La structure est donc représentée par une séquence de nombres réels (entre -180.0 et 180.0).

(7)

Système de scores et estimation de la significativité

Scores pour les séquences nucléiques

Pour les séquences nucléiques, c’est l’identité des symboles d’une paire qui est généralement utilisée comme score d’alignement. Nous la remplaçons par une matrice de substitution entre nucléotides calculée à partir de la composition du gène étudié. Cette approche permet de limiter les biais rencontrés pour les gènes issus de génomes à fort ou faible taux de GC.

Nous utilisons donc un score qui permet de tenir compte de la fréquence en base de la séquence [4].

Le score de substitution est calculé comme suit :

S = 0,5 x σ(i,j) x log₄(p_ip_j) σ(i,j) = 1 si i ≠ j ; σ(i,j) = -1 si i = j pipj sont les fréquences des bases i et j dans les 2 séquences

L’ouverture de gap coûte par défaut 4 et l’extension de gap coûte 1 Scores pour les séquences protéiques

Le score utilisé pour les séquences protéiques est la matrice BLOSUM62 [Henikoff, 1992] classique (celle-ci peut être remplacée par une autre matrice choisie par l’utilisateur). Pour les gaps : les valeurs par défaut sont : ouverture de gap : 8 et extension de gap 3

Estimation de la significativité pour les séquences nucléiques et protéiques

Pour chacune des séquences étudiées, Swelfe génère 100 séquences aléatoires de même composition (nous avons aussi testé avec 1000 pour voir si les résultats changeaient significativement). Les scores sont classés, et on associe à chacun la probabilité d’obtenir un score supérieur par le hasard : 0 pour le 1^er, 1/N pour le 2^ème, etc… (N étant le nombre de séquences, ici 100). La probabilité d’obtenir un score supérieur à S est donné par la distribution Exp(-γmnp^S), avec m et n les longueurs des 2 séquences comparées (ici, c’est la même puisqu’on est en auto-alignement d’une séquence sur elle-même. On estime p et γ par une régression linéaire pondérée (car on a plusieurs points pour un même score) de la formule log(- log(p)) = log (γmn) + S log(p).

Une correction est appliquée pour les longueurs car il s’agit de séquences de taille finie [Mott, 2000]. On soustrait de m (et n) la longueur moyenne des matchs des séquences aléatoires.

Scores pour les structures

Pour les structures, le score est calculé sur la base des angles α. Nous utilisons un score qui tient compte de la différence circulaire entre les 2 angles : plus celle-ci est petite, plus le score est élevé.

L'algorithme de Smith et Waterman nécessite que 2 angles pris au hasard aient un score négatif (i.e.

l'espérance du score doit être négative sur les séquences d’angles), sinon les bornes des "segments"

de similarité maximale ne pourraient être trouvées (le score augmenterait en moyenne!). Le score utilisé par Swelfe est donc calibré pour avoir un score négatif pour deux angles pris au hasard.

La distribution cumulative des différences angulaires sur la banque de structures PDB (Bernstein, 1977)

est donnée sur la figure 1. De cette distribution, on peut tirer une différence angulaire « seuil » au- dessus de laquelle se trouveront les différences entre les 3/4 des angles α pris au hasard sur la PDB.

Donc, si l’on calcule le score entre 2 angles α1 et α2 comme étant cette différence angulaire « seuil » moins la différence angulaire entre α1 et α2, on obtient un score qui respecte la condition de valeur négative pour 2 angles pris au hasard.

(8)

0 50 100 150 1.0

0.8

0.6

0.4

0.2

Fréquence cumulée

Différence d’angleα(en degré) entre 2 angles pris au hasard sur la PDB

Figure 1 : Distribution cumulative des différences angulaires entre les angles α sur la PDB.

Dans le cadre de ce projet, les seules répétitions structurales intéressantes correspondent, pour des duplications longues, à des domaines structuraux, et pour des duplications courtes, à des motifs 3D significatifs répétés. Pour nous, dans une première approximation, un motif 3D significatif est un motif de longueur suffisante qui n’est pas constitué d’une seule structure secondaire canonique - sauf si la longueur de cette structure est très importante. En effet, les hélices α et les brins β sont des structures bien trop communes pour être intéressantes à elles seules.

Il est connu que les probabilités d'occurrence des angles α successifs dans une structure sont hautement corrélées à cause des structures secondaires canoniques notamment, qui sont des structures répétitives. Par exemple, une hélice α est constituée d’une suite d’angles α d’environ 45°.

Aussi, dans Swelfe, nous avons adjoint à la recherche des motifs 3D répétés une mesure de leur

« significativité » basée sur une extension du modèle markovien pour les longues séries : les modèles MTD (Mixture Transition Distribution [Raftery, 1985]). Ces MTD sont appliqués aux séries d’angles de coordonnées internes (voir ci-dessous). Les paramètres d'une chaîne de Markov d'ordre plus élevé que 1 pour représenter ces corrélations ne pourraient être estimés sur la PDB. La PDB - bien qu’importante – ne contient pas assez de données même pour l’estimation de triplets. Les probabilités conditionnelles sont donc calculées à partir de la méthode des MTD qui sont une approximation « par paires » des probabilités conditionnelles des chaînes de Markov. Ces modèles sont utiles pour les ordres élevés où le nombre de paramètres à calculer pour les chaînes de Markov devient trop grand. Dans le modèle MTD, une seule matrice de transition entre états et un vecteur de

"retards" (ordre) sont estimés¹. Pour un ordre l donné et un alphabet de taille m, le modèle MTD a

1Soit Xt une variable aléatoire dans un ensemble fini A={1,...,m}, dans un modèle de chaîne de Markov d'ordre l la probabilité que Xt=α0, (α0 appartenant à A) dépend des combinaisons de valeurs prises par Xt-l,...,Xt-1. Dans le modèle MTD, la contribution de chaque "retard" au "présent" est additive:

(9)

seulement m(m-1)+l-1 paramètres indépendants alors qu'une chaîne de Markov en aurait m^l-1. La probabilité d'un fragment structural dans la banque peut être calculé par Swelfe à partir de ses angles selon le modèle MTD ci-dessus (Swelfe utilise une chaîne MTD d'ordre 8 calculée sur la PDB).

Evidemment, il faut "discrétiser" les angles pour avoir des "symboles" (classes d'angles contenant suffisamment d'occurrences). Une partition d'intervalle de 10° est fixée sur l'ensemble des angles, et donne donc 36 symboles (36 états). Les estimations des paramètres du modèle MTD ont été faites sur une banque PDB non-redondante en séquence (CLUSTER70). Bien que les probabilités ainsi associées aux structures secondaires canoniques soient élevées, ceci ne nous a pas permis de

« filtrer » toutes les similarités non intéressantes.

Une deuxième tentative a été de prendre directement en compte dans le score structural d’une paire d’angles la fréquence des angles impliqués dans cette paire. Le score utilisé par Swelfe prend donc en compte ces fréquences, et donc le score d’une paire d’angles fréquents sera moins élevé que le score d’une paire d’angles peu fréquents. Le score de substitution entre deux angles αi et βj est calculé comme suit :

S(αi,βj )=: 30*[(1-p_i)(1-p_j)(1-β)+ β] - | Δcirc (αi,βj) | pi, pj = fréquences des angles αi et βj dans la PDB

β= 0.4, ce facteur donne la proportion de la correction probabiliste.

Ce score permet un meilleur filtrage des similarités trop communes pour être significatives.

Un autre filtre peut être réalisé a posteriori par le calcul du RMS entre les fragments similaires trouvés (note : RMS mesure la distance entre les C α après superposition optimale des deux fragments). Par défaut, le seuil de RMS est mis à 4,5 Å. Ceci permet de vérifier que les fragments se superposent correctement.

L’ouverture de gaps est fixée par défaut à 200 (cette valeur correspond en négatif à 7 coïncidences d’angles α parfaites) et l’extension est fixée à 50.

Pour ne conserver que les régions de similarités les plus pertinentes, les options de Swelfe permettent d’utiliser l’un ou l’autre de ces scores et de faire varier les valeurs seuils associées aux filtres, soit :

- le seuil de score d’un match (il est à 250 par défaut, ce qui permet d’avoir environ autant de répétitions en structure qu’en séquence protéique d’après nos tests);

- le facteur/seuil de 30° pour le calcul du score d’une paire d’angle (voir ci-dessus);

- le RMS entre les carbones α des deux fragments (RMS maximum : 4.5Å);

- le recouvrement toléré entre matchs - seulement si on n'interdit pas les régions entières des matchs précédents (option supplémentaire).

€

P(X_t =α₀|X_t−l =α_l,...,X_t−1=α₁)= λ_gP

g=1 l

∑

^(X^t ⁼^α⁰ ^|^X^t−g ⁼^α^g⁾⁼^q^α^g^α⁰

où αl,..., α0 appartiennent à A, les probabilités qαgα0 sont des éléments de la matrice de transition (de dimensions m*m) Q= [qi j] dont chacune des lignes est une distribution de probabilité, et λ=λ1,..., λ1 est un vecteur de paramètre de "retards". Afin d'avoir des probabilités comme résultat du modèle, les λi doivent respecter la contrainte suivante:

€

λ_g =1;

g=1 l

∑

^λ^g ^≥⁰

(10)

Sur option, Swelfe peut calculer également :

- les RMS "croisés" entre 2 sous-alignements structuraux : 20Å. On appelle RMS "croisé"

entre deux sous-alignements structuraux, la distance entre les fragments constituant le premier alignement lorsque ceux du second alignement sont superposés. Cette mesure n'est pas symétrique, et on prend la valeur inférieure des 2 mesures possibles. Cette mesure donne la « compatibilité » structurale de 2 paires de fragments similaires.

- le score de l'alignement de la séquence protéique correspondant à l’alignement structural. Ce score est calculé à partir de la matrice BLOSUM62;

- la probabilité d'occurrence d'un segment de la paire alignée avec le modèle MTD ; - un nombre maximal d'alignement par structures indépendamment du score

Les fichiers d'entrées « structuraux » peuvent contenir une structure de protéine ou une banque de structures protéiques, et peuvent être au format PDB (ou un format binaire en angles α, créé par un programme intermédiaire à partir du fichier PDB). Le programme peut également sortir un fichier d'aide à la visualisation des résultats des alignements structuraux locaux sous le logiciel Pymol (logiciel de visualisation moléculaire).

(11)

Résultats

Structures Un exemple :

Voici un exemple de résultat du programme Swelfe sur la protéine de Plasmodium falciparum (code PDB 1n81) :

Figure 2 ; Duplication structurale dans la structure 1n81 de pfg27 (protéine de Plasmodium falciparum, PDB code 1n81 chaine A). La structure est affichée deux fois (une fois en bleu et une fois en vert) de manière à superposer les 2 éléments de la DDPI (qui sont colorés en jaune et vert).

Séquence de la répétition structurale dans 1n81 représentée Figure 2 (longueur 75 amino-acides) :

1n81A : IKKIDDYLWVEQRVIEEVSINVDHAREVKEKKRIMNDKKLIRMLFDTYEYVKDV- : : : : . .:: .. : |: || : . 1n81A : PRIRKVGDIEFHACSDYIYLLMTLSKDPEKFNYALKDRVSIRRYVRKNQNRYNYF

1n81A : KFTDDQYKDAAARISQFLID : . ||| ||

1n81A : LIEERVQDNIVNRISDRLIS

Le score BLOSUM des séquences associées est de -33 donc cette répétition ne serait pas détectée sur les séquences protéiques ou nucléiques associée à cette structure (ou alors ne serait éventuellement détectée qu’une sous-répétition de longueur moindre).

(12)

Recherche systématique des duplications dans les structures Le programme Swelfe a été utilisé :

- en "auto-alignement" (recherche de duplications, chaque protéine contre elle-même) pour détecter les motifs répétés intra-protéiques. Cette recherche a été effectuée sur les protéines de CLUSTER50. Les protéines présentant plus de 10% de résidus inconnus ou trop petites ont été exclues des lots. Les résidus séléno-méthionine (MSE) et séléno-cystéine (CSE) dans les champs hétéro-atomes ont été pris en compte.

- en "tout contre tout", sur les 7952structures protéiques de la banque PDB présentant au maximum 50% d'identité de séquence (ensemble CLUSTER50 de la PDB²) afin d'effectuer des statistiques sur les motifs communs,

Séquences protéiques

Les séquences protéiques sont celles figurant dans le fichier PDB directement, en remplaçant les atomes spéciaux (MSE ; SCE et autres) par leurs acides aminés correspondant ne contenant pas de Selenium. De même, les « trous » de la PDB (acides aminés invisibles dans cristallographie) ont été remplacés par un caractère très pénalisé dans l’alignement.

Séquences nucléiques

Etonnamment, il n’existe pas de liens valides entre structures et séquences protéiques/nucléiques correspondant à un gène, y compris en utilisant les « cross-references » d’une banque comme UNIPROT. Nous avons donc dû chercher les séquences nucléiques correspondant aux structures PDB dans les CDS d’EMBL non redondantes (voir plus loin « Mise à disposition de la communauté »).

Ajustement des 3 niveaux – Résultats

Après le « nettoyage » des structures/séquences vu ci-dessus, il reste 7952 structures pour lesquelles nous avons la séquence protéique et nucléique (décembre 2006). Un alignement exact permet d’avoir les positions relatives des unes par rapport aux autres. La figure 3 donne le résumé des résultats. Une partie seulement des duplications significatives à un niveau donné se retrouvent à l’autre. Ceci est particulièrement vérifié pour les duplications trouvées seulement aux niveaux nucléiques et structuraux, ce qui est attendu.

2 http://www.rcsb.org/pdb/redundancy.html

(13)

Figure 3 : Nombre de protéines contenant des répétitions pour chaque niveau (et à plusieurs niveaux). Le jeu de départ contenait 7952 structures, séquences protéiques et nucléiques.

Un élément intéressant est donné par l'examen des scores BLOSUM des séquences d'acides aminés constituant les alignements structuraux (fragments similaires en structure). Un premier examen (voir figure 4) indique que 42% des fragments structuraux ont un score négatif en terme de séquence, donc ces similarités ne pourraient être trouvées grâce à la seule information de séquence par alignement.

Nous sommes en train d'analyser plus finement la corrélation entre le score obtenu en séquence par rapport à la qualité de l'alignement structural.

Figure 4 : Distribution des scores BLOSUM des duplications structurales (3D). On a ici mesuré les scores de similarités entre les séquences protéiques des duplications structurales suffisamment significatives trouvées par Swelfe.

42,6% des scores BLOSUM sont négatifs, donc ces duplications ne pourraient être trouvées – au moins sur toute leur longueur - par recherche sur les séquences protéiques.

(14)

Un autre résultat intéressant de la recherche de DDPI en 3D est que nous avons trouvé des DDPI structurales symétriques en nombre non négligeable. Ces DDPI 3D apparaissent comme des

« pseudo-dimères » qui forment une partie ou le total de la structure dans laquelle on les trouve.

Pour un exemple, voir la figure 5.

(A)

(B)

Répétition 3D

Répétition séquence protéique Répétition séquence nucléique

Figure 5 : Analyse intégrée d’une DDPI dans la structure 1a9x (carbamyl phosphate synthétase), sa séquence protéique et sa séquence nucléique.A) La DDPI apparaît en vert et en orange dans la structure du 1a9x. La duplication se traduit par deux sous domaines structuraux similaires et symétriques. B) La DDPI 3D est plus étendue que la DDPI trouvée en

acides aminés, cette dernière étant environ deux fois plus étendue que la DDPI nucléique détectée.

Construction des familles de DDPI

Le programme OPSCAN, en développement au début du projet, a été finalisé pour une recherche plus fine d’orthologues et de régions de synténie entre génomes proches ou plus lointain. Ce programme, rapide, implémente une stratégie en 2 temps de recherche de similarité. Une phase

(15)

rapide permet d’associer à un gène (protéine) du génome 1 les k gènes les plus similaires dans le génome 2, et vice-versa. Cette recherche rapide – anciennement la méthode FASTP – a été améliorée en intégrant un calcul de score plus fin, basé non plus sur le nombre de k-uples maximum (meilleur décalage), mais en calculant le score du sous-vecteur d’alignement maximal pour le meilleur décalage.

De ces ensembles de k voisins sont tirés les couples de gènes considérés comme orthologues (« Bidirectional Best Hits »). Ensuite, OPSCAN analyse la continuité [Boyer et al., 2005] entre gènes orthologues permet de mettre en relation les régions de synténie dans les 2 génomes (avec un seuil pour les « trous » de synténie fixé par l’utilisateur).Opscan permettra de détecter dans les génomes proches ou plus lointains les gènes contenant des DDPI.

Mise à la disposition de la communauté des résultats

MicrOBI : une approche pragmatique de l'intégration de données en biologie

MicrOBI est une base intégrative ayant pour but de mettre en relation les données taxonomiques, génomiques et fonctionnelles des micro-organismes possédant leur génome complètement séquencé.

Plusieurs bases de données doivent être mises en relation pour pouvoir poser des requêtes intégrant ces différents types d'informations. MicrOBI a été conçue de façon à pouvoir facilement y ajouter de nouveaux type de données (publiques ou privées).

MicrOBI a été développée dans un système de bases de données relationnelles. Le premier objectif est que la base doit garantir la cohérence des données. Elle doit donc être capable de propager automatiquement les corrections de l'information réalisées par la mise à jour d'une des sources de données aux autres données liées.

Aujourd'hui la base de données MicrOBI fonctionne et est utilisée non seulement pour l'analyse des duplications dans un contexte fonctionnel (le présent projet EVOLREP), mais aussi dans le cadre d'une collaboration avec le Swiss Institute of Bioinformatics (SIB) à Genève pour la réannotation des données métaboliques de la base de données SwissProt (Bairoch, 2000).

La base de données MicrOBI contient à la fois des données publiques, des données calculées et des données rattachées aux projets de recherche utilisant cette base.

Les données

Les données publiques intégrées dans MicrOBI couvrent différents domaines de connaissance. Pour chacun de ces domaines, une ou plusieurs banques de données considérées comme références sont utilisées : données taxonomiques du NCBI, données de génomique du projet Genome Review de l'EBI, données de protéomiques issues de la base de données Uniprot-SwissProt et du projet d'annotation des protéomes complets Hamap, données métaboliques de KEGG (Kanehisha, 2002) complétées par chEBI, la base de données des métabolites de l'EBI. La dernière classe de données publiques présentes dans MicrOBI correspond à des classifications fonctionnelles. Deux classifications sont gérées actuellement : GeneOntology et la classification enzymatique telle qu'elle est fournie par le SIB-Genève.

Les données privées de MicrOBI se divisent en deux catégories : d'une part, les données liées à des projets de recherche comme le présent projet EVOLREP (comparaison des duplications entre espèces) ou UniPathway le projet de réannotation des données métaboliques de SwissProt, d'autres part des données calculées.

Représentation des données / relations

Les données publiques associées au sein de MicrOBI se référencent entre elles par l'intermédiaire de liens croisés décrits dans leurs entrées (annotation du type DBXREF). D'autres liens sont ajoutés

(16)

par la base de données MicrOBI en s'appuyant sur des calculs. Deux sous-parties de MicrOBI correspondent à ce type de données : l'OBIGraph et OBIZyme.

L'OBIGraph partitionne SwissProt en groupes de protéines très similaires. À la base, l'OBIGraph est un graphe où les noeuds sont les protéines complètes de SwissProt/Hamap et les arêtes décrivent une relation de similarité entre ces protéines. Sur ce graphe, un groupe de protéines est définie comme une composante connexe. L'avantage de cette définition est que si le premier calcul de l'OBIGraph a nécessité une semaine de calcul, sa mise à jour à chaque version de SwissProt est réalisée en quelques heures. Cette rapidité nous assure une cohérence permanente entre nos classes de protéines et les données de SwissProt présentes dans MicrOBI. OBIZyme est une collection de profils PSI-Blast (Altschul, 97) permettant d'affecter des liens entre la classification enzymatique et les séquences contenues dans SwissProt.

D’un point de vue pratique, MicrOBI permet de stocker de grandes séquences nucléiques comme des chromosomes complets, de décrire des régions d'intérêt sur une séquence par une série d'intervalles, de gérer la machinerie de traduction, de représenter toutes les informations liées à un code génétique (codons classiques, codons start...), de représenter la structure secondaire d'un ARNt., de représenter un modèle de covariance tel qu'il est défini par le programme tRNAScan (Lowe, 1997).

La mise en place d'une base de données contenant des informations biologiques amène à représenter des informations non traditionnellement représentées dans une base de données relationnelle. Pour représenter ces types de données complexes atypiques, deux solutions sont envisageables : les représenter à partir des types de données standards comme les chaînes de caractères, les entiers ou les nombres réels, ou enrichir le gestionnaire de base de données d'un jeu de nouveaux types dédiés aux éléments biologiques. Les OBITypes, développés en langage C, répondent à ce dernier objectif.

Le développement de types spécialisés permet d'une part de simplifier le schéma des bases de données et d'autre part, de spécifier des contraintes et des méthodes spécifiques à ces objets.

Actuellement, les OBITypes ajoutent à PostgreSQL des types permettant de représenter des grandes séquences nucléiques, des données liées aux mécanismes de traduction et des informations permettant de facilité l'inférence de la similarité entre séquences. A chacun de ces types est associé un ensemble de fonctions permettant de réaliser des « opérations biologiques » sur les objets représentés. Ces fonctions permettent d'intégrer à une requête SQL des opérations de calcul relevant de l'analyse de séquences. Par exemple, MicrOBI intègre une gestion de la similarité et permet de réaliser facilement des comparaisons simples de séquences par des algorithmes de type FASTP (Pearson, 1985).

Un des objectifs de MicrOBI est d'assurer automatiquement la cohérence de ces liens malgré la gestion indépendante des sources de données. Le faire automatiquement est important car MicrOBI peut potentiellement être consultée et mise à jour par plusieurs programmes. Il n'est donc pas raisonnable de faire reposer la cohérence sur ceux-ci. Il a donc été défini, pour chaque type de liens, une stratégie de maintien de la cohérence qui est déclenchée automatiquement par la base lors de l'insertion de nouvelles données ou lors de leur correction.

Intégration des duplications du projet EVOLREP

Les données de duplications aux 3 niveaux mises en évidence dans le présent projet sont en train d’être insérées dans la base MicrOBI.

Un travail inattendu : trouver les gènes correspondant aux structures PDB

De manière inattendue, il est impossible à l’aide des bases actuellement disponibles sur le Web d’obtenir le gène – en fait, simplement la séquence codante - correspondant à une protéine de structure connue (i.e. appartenant à la PDB), y compris par les références croisées Uniprot-EMBL

(17)

par exemple (les liens sont non univoques et représentent souvent des gènes différant ou des chromosomes entiers…). Cette information importante doit être en fait établie par une recherche de similarité de séquence sur l’ensemble des CDS connus (séquences protéiques déduites de la traduction de « cds.dat » de EMBL), c’est-à-dire chercher de l’ordre de 20000 séquences correspondant à la PDB parmi plus de 6 millions de séquences. Nous avons adopté une technique en 2 temps : extraction rapide des séquences présentant des mots identiques de longueur 5 (grâce au programme CDHit, employé non pour le clustering mais pour cette phase de recherche très rapide), suivi d’un alignement global de type NWS permettant de vérifier que la séquence protéique du CDS traduit correspondait bien à celle de la structure PDB. En fait, la sélection des CDS correspondant aux structures provient du meilleur alignement réciproque entre chaque séquence issue de la PDB et les séquences EMBL. Nous avons utilisé un seuil d’identité supérieur à 95% pour affirmer qu’un CDS correspondait bien à la structure protéique. Avec ce seuil, il reste néanmoins environ 4% des protéines pour lesquels on ne trouve pas de séquence CDS.

De manière à rendre ces données publiques, car elles sont utiles à la communauté, nous les intégrons en ce moment - ainsi que la procédure permettant de les recalculer pour les nouvelles structures à venir de la PDB - dans MicrOBI.

Evolution et dynamique de DDPI – analyse comparative

Etudes expérimentales sur la dynamique des répétitions proches

Initialement envisagée sur la levure Saccharomyces cerevisiae, l'étude expérimentale de l’évolution et de la dynamique des duplications directes proches intragéniques s'est réorientée vers les génomes de mammifères, en particulier le génome de la souris. Cette réorientation faisait suite à l'arrivée, au sein de l'équipe SDG, de Denis Houzelstein qui avait déjà intéragi avec Isabelle Gonçalves dans le cadre d'une collaboration qui portait sur l’analyse phylogénétique d’une famille multigénique (les galectines) chez les vertébrés. Les génomes de mammifères contiennent plus d’une dizaine de gènes de cette famille, les gènes Lgals. La famille regroupe des protéines caractérisées par la présence d’un motif conservé, le CRD (Carbohydrate Recognition Domain) d’environ 130 acides-aminés à l’origine de leur affinité pour le galactose. Les galectines sont impliquées dans des processus biologiques très variés. En effet, en intra-cellulaire et en extra-cellulaire, les galectines interviennent dans les voies de signalisation cellulaire et leur rôle a été décrit dans le contrôle de l’apoptose, la régulation de réponses immunitaires, la différenciation tissulaire, le cancer, l’infection par le VIH…

Certains gènes Lgals codent pour deux domaines codant un CRD, séparés par un “linker” de taille variable entre 20 et 70 acides-aminés environ. Nous avons montré que ces gènes Lgals bi-CRD résultent d’une duplication intragénique en tandem antérieure à la divergence des vertébrés (Houzelstein et al., 2004). L’analyse de la famille multigénique permet donc d’avoir un exemple de ce que peut-être l’évolution de gènes possédant une duplication interne.

(18)

Figure 6 : Le domaine CRD forme un sandwich ß avec deux feuillets (brins F1…F5 et brins S1…S6).

Le sucre est représenté en vert.

Au cours de l’évolution des vertébrés, plusieurs gènes codant pour des galectines bi-CRD ont été dupliqués. Parmi eux, Lgals4 a été dupliqué dans le génome de la souris (après la divergence rat/souris) et donne une paire de gènes bi-CRD Lgals4/Lgals6 (93% d’identité au niveau de leurs CDS et 86% au niveau de leurs séquences protéiques) situés sur le chromosome 7. Nous avons montré qu’un aspect original de l’histoire évolutive du gène Lgals6 est que ce gène n’est présent que dans le génome de certaines souris. Ainsi, le gène est absent du génome publié de la lignée C57Bl/6j, tandis qu’il est présent dans le génome de 129sv d’une autre lignée de laboratoire. Le polymorphisme présence/absence a été retrouvé au niveau des lignées sauvages de Mus musculus de plusieurs sous-espèces (table 1).

(19)

Table 1 : Liste des lignées de laboratoire ou sauvages dans lesquelles la présence du gène Lgals6 a été testée. Un arbre phylogénétique des sous-espèces de Mus utilisées dans cette étude avec une échelle

en millions d’années est représenté à gauche (d’après Guenet et Bonhomme, 2003).

Une des copies du gène dupliqué, Lgals6, a subi une délétion emportant les 2/3 du “linker” (figure 7-A). Une phylogénie des CDS de Lgals4 (rat et souris) et Lgals6 (souris), en utilisant le gène Lgals4 humain comme groupe externe (figure 7-B) montre que la duplication semble antérieure à la divergence Mus musculus/Mus spretus. La même topologie est obtenue en utilisant une région intronique de ces gènes.

(20)

A B ^WLA_G4

129sv_G4 C57BL/6J_G4

SEG_G4 STF_G4 CAST_G4

CAST_G6 129sv_G6 Rn_G4

Hs_G4 0.02

100 100

97 foreground lineages background lineages

Figure 7 : A) Organisation génomique des gènes bi-CRD Lgals4 (en haut) et Lgals6 (en bas). Les exons sont représentés par les boîtes, numérotées de 1 à 10. Le même numéro a été affecté aux exons

homologues entre les deux gènes. Le CRD N-terminal est codé à partir des exons 2, 3 et 4 ; le linker est composé des exons 5, 6 et 7 et le CRD C-terminal des exons 8, 9 et 10. Une délétion de 1,8 kb a eu

lieu sur le gène Lgals6 et le CRD C-terminal de ce gène est soumis à une sélection positive. B) Phylogénie par maximum de vraisemblance des CDS de galectine-4 et galectine-6 en utilisant la

galectine-4 humaine (Hs) comme groupe externe. Rn : Rattus norvegicus ; Les noms de lignées correspondent à ceux de la table 1. La division de l’arbre en « foreground linages » et « background lineages » est celle qui a été utilisée dans l’analyse des modèles par maximum de vraisemblance (voir

ci-dessous).

Une analyse des forces évolutives s’exerçant sur les gènes Lgals4 et Lgals6 a été effectuée par maximum de vraisemblance à l’aide du logiciel PAML (Yang 1997; version 3.15). Il montre que le modèle le plus vraisemblable est le modèle A c’est-à-dire celui où on distingue les branches des gènes Lgals6 (foreground) du reste de l’arbre (background) en autorisant une sélection positive (ω=dN/dS>1) pour certains sites dans la partie foreground de l’arbre. Ce modèle est plus vraisemblable que le modèle neutre M1a (2∆l = 26.2 ; df=2 ; p<0.0001) et également plus vraisemblable que le modèle A dans lequel on interdit la sélection positive (ω2 fixé à1 ; 2∆l = 9.06 ; df = 1 ; p=0.0026). Les sites sélectionnés positivement, détectés par une approche bayesienne (BEB) qui calcule les probabilités à posteriori que chaque codon soit sélectionné positivement, se situent sur une seule copie de la DDPI (duplication directe proche intragénique) : la C-terminale. La localisation des sites sélectionnés positivement sur la structure du CRD homologue de la protéine galectine-4 humaine montre qu’ils sont répartis un peu partout dans la structure.

(21)

Table 2 : Analyse par maximum de vraisemblance pour tester les différents modèles évolutifs avec PAML.

Model np l Estimation des paramètres Positions des codons sélectionnés positivement

M 0 20 -2700.47

€

ω ˆ =0.257 None

Site-specific models

M 1 a ( N e a r l y Neutral)

21 -2669.52

€

p ˆ 0=0.690,

€

p ˆ 1=0.310

€

ω ˆ 0=0.047,

€

ω ˆ 1=1

Not allowed

M2 (selection) 23 -2669.52

€

p ˆ 0= 0 . 6 9 0 ,

€

p ˆ 1=0.159,

€

ˆ

p 2=0.151

€

ω ˆ 0=0.047,

€

ω ˆ 1=

€

ω ˆ 2=1

None

Branch-site models Model A ω2=1

22 -2660.95

€

p ˆ 0=0.322,

€

p ˆ 1=0.111

€

ˆ

p 2a=0.422,

€

ˆ

p 2b=0.145

€

ω ˆ 0=0.046,

€

ω ˆ 1=1,

€

ω ˆ 2=1

Not allowed

Model A ω2≥1 23 -2656.42

€

p ˆ 0=0.567,

€

p ˆ 1=0.187

€

ˆ

p 2a=0.185,

€

ˆ

p 2b=0.061

€

ω ˆ 0=0.047,

€

ω ˆ 1=1,

€

ω ˆ 2=8.17

152, 196, 230, 250, 266, 296, 300, 308, 312

Ainsi, la duplication Lgals6/Lgals4 apparaît assez ancienne puisque antérieure à la divergence Mus musculus/Mus spretus et malgré cela un polymorphisme présence/absence du gène Lgals6 est observé chez Mus musculus. De plus, le gène Lgals6 est sélectionné positivement, au moins sur sa partie C-terminal ; ce qui paraît incompatible avec le maintien d’un polymorphisme présence/absence puisque le fait de voir le résultat de la sélection positive nécessite un temps assez long dans un pool génique où les variants successifs se sont nécessairement fixés. Deux hypothèses peuvent permettre d’expliquer ce paradoxe (sélection positive + polymorphisme présence/absence) : - la duplication a pu avoir lieu dans le génome d’une Mus dont la divergence par rapport à Mus musculus est antérieure à celle de Mus spretus. Dans le génome de cette sous-espèce, le gène Lgals6 peut être fixé et soumis à une sélection positive. Le polymorphisme chez Mus musculus serait alors le résultat d’une introgression récente.

Ou alors

- si la duplication a bien eu lieu dans le génome ancestral de Mus musculus et que le gène Lgals6 est transmis verticalement depuis, il faut envisager un mécanisme de protection du polymorphisme présence/absence de ce gène dans les populations.

Pour trancher entre les deux hypothèse, il nous faut augmenter notre échantillonnage et notamment savoir si le gène Lgals6 est présent chez des Mus comme Mus spicilegus, Mus cooki et Mus macedonicus, avoir les données de séquences des CDS de Lgals4 et Lgals6 du genre Mus ainsi que des séquences de régions introniques. Nous effectuons actuellement ce travail d’acquisition de données supplémentaires, en collaboration avec Annie Orth et François Bonhomme de l’UMR CNRS 5171 de Montpellier.

Nos premiers résultats ont été présentés au « 10th Evolutionary Biology Meeting » à Marseille (http://www.up.univ-mrs.fr/evol-cgr/home_page/meeting2006/P24Gon%E7alves.pdf) et nous avons

(22)

rédigé l’essentiel d’un article que nous pensons soumettre très prochainement.

Nouveaux algorithmes et méthodes de détection des répétitions

Motifs relationnels : Recherche de sous-structures similaires 3D basée sur les positions spatiales relatives des amino–acides (« Triade »).

Contexte.

« Triade » est un outil de recherche de répétitions 3D structurales qui utilise un moteur de recherche de répétitions relationnelles, les relations étant ici représentées par les distances entre deux carbones- α. Le moteur implémenté initialement dans Triade, que nous nommerons KmrcRel est décrit dans

[Pisanti et al., 2005]. L'idée de départ de KmrcRel est la recherche classique de mots répétés, telle qu'effectuée par l'algorithme Kmr [Karp et al., 1972]. Cet algorithme a été précédemment adapté, sous le nom Kmrc [Soldano et al., 1995], à la recherche de motifs plus flexibles utilisant un alphabet dégénéré : le symbole apparaissant à une position donnée dans une séquence appartient à plusieurs éléments de cet alphabet dégénéré dont chaque élément regroupe plusieurs symboles de l'alphabet original de la séquence. Kmrc a été lui-même étendu en KmrcRel [El Zant et Soldano., 2003] en ajoutant la contrainte suivante aux motifs répétés : les relations binaires, dans un alphabet relationnel prédéfini, entre paires de positions dans le motif doivent être conservées. Ces motifs que nous qualifions de "motifs relationnels" peuvent être non seulement flexibles au sens où l'alphabet de la séquence est dégénéré, mais également dans le sens où l'alphabet des relations peut lui-même être dégénéré. Ainsi si la relation entre deux positions exprime une distance entre atomes, alors les relations d(i,j)=1 et d(i,j)=2 peuvent appartenir au même groupe relationnel {=1, =2}. Cette flexibilité est absolument nécessaire en ce qui concerne les distances inter-atomiques, comme pour toute mesure continue discrétisée : la taille du groupe fixe la tolérance pour admettre deux distances comme similaires.

En résumé le principe est donc que deux sous-structures de taille k seront similaires si toutes les distances deux à deux entre les carbones-α sont similaires dans les deux structures. Un motif relationnel de taille k représente précisément un ensemble de sous-structures similaires dans une séquence (ou plusieurs), ces sous-structures sont les occurrences de ce motif relationnel et sont représentées par la première position de la sous-structure dans la séquence.

Nous avons cependant été confrontés à des difficultés pour extraire de tels motifs structuraux répétés avec Triade dans certaines séquences, pour une notion de tolérance raisonnable. Les difficultés étaient liées à la quantité de ressources (temps et mémoire) nécessaires dans certains cas.

L'analyse de ces difficultés a conduit à une amélioration de l'algorithme KmrcRel. Le nouvel algorithme, KmrOverlap [Pisanti et al., 2005], décrit ci-dessous a été expérimenté dans Triade pour la recherche de motifs structuraux répétés. Cette étude a été menée dans le cadre du post-doc CNRS au LIPN, de Nadia Pisanti (post-doc financé par la présente ACI).

KmrOverlap

Pour réduire les difficultés rencontrées avec KmrRel dans le problème des motifs structuraux répétés, il y a deux voies compatibles entre elles :

1) - D'abord on peut réduire l'exigence concernant les similarités relationnelles, ce qui permet de diminuer le nombre de motifs engendrés et examinés à chaque étape, en parcourant un espace de motifs plus restreint. Le cas des structures se prête bien à une telle diminution dans la mesure où l'espace physique dans lequel sont représentés initialement les atomes est de dimension 3 et donc indépendant de la taille des motifs. On peut ainsi envisager de limiter le nombre de relations supplémentaires considérées à l'étape k à un nombre constant : si on ajoute un atome à un ensemble

(23)

d'atomes formant un motif, les distances de cet atome à un nombre fixe d'atomes du motif suffisent à spécifier le motif étendu obtenu. Ceci reste, au moins empiriquement, vrai même dans le cas d'un alphabet dégénéré.

2)- Ensuite on peut chercher à améliorer l'algorithme de recherche de motifs lui-même, indépendamment du problème spécifique posé et sans réduire l'espace de motifs parcouru. Nous détaillons ci-dessous une amélioration substantielle de KmrcRelat, donnant naissance à KmrOverlap et fondée sur l'évitement de motifs engendrés inutilement par KmrcRelat. En réalité ce possible évitement est valide aussi pour Kmrc, mais était passé inaperçu pour les raisons détaillées ci-après:

Kmrc comme KmrcRel engendrent les motifs répétés d’une taille donnée à partir de motifs répétés de taille plus petite, en un certain nombre d'étapes. Une différence technique importante entre Kmrc et KmrcRel est que dans Kmrc les motifs de taille k sont engendrés, sauf éventuellement à la dernière étape, par juxtaposition de deux motifs générateurs de taille k/2, ce qui conduit à un faible nombre d'étapes de génération. En revanche dans KmrcRel, et pour éviter de tester un nombre croissant de relations à chaque étape, des motifs candidats de taille k sont engendrés à partir de motifs générateurs de taille k-1 puis éventuellement retenus. De telles étapes impliquent un chevauchement entre les motifs générateurs combinés pour engendrer le motif candidat de taille k. L'amélioration proposée ici concerne précisément les effets du chevauchement : certains, parfois un grand nombre, des motifs candidats engendrés sont alors des pseudo-motifs qui ne peuvent être des motifs répétés.

KmrOverlap évite d'engendrer ces motifs inutiles en imposant une condition de compatibilité entre deux motifs générateurs. Pour cela il faut maintenir à chaque étape l'information nécessaire à ce test de compatibilité à l'étape suivante.

Nous avons expérimenté une version de Triade utilisant KmrOverlap, et y avons incorporé également la possibilité de réduire l'espace de motifs parcouru en tenant compte des spécificités de la recherche dans un espace physique de dimension bornée. Précisément, il est ici possible de diminuer le chevauchement en passant en une seule étape de mots relationnels de taille k à des motifs de taille k+3. Ceci n'affecte pas la sensibilité de la méthode tout en accélérant notablement l'algorithme d'extraction. Dans la figure 8, nous donnons un exemple de motifs structuraux trouvés sur 4 parmi 5 structures de cytochromes P450. Les distances entre carbones- α sont discrétisées avec des intervalles de taille 1.5 Å, et chaque groupe de distances contient ici 3 de ces valeurs discrètes de distances.

(24)

Figure 8 : Motifs relationnels “structuraux” de longueur 18 pour les 5 cytochromes P450 4CP4 , 1ROM, 1CPT, 2HPD chain B et 3CPP. Les relations entre éléments (Cα des acides aminés) sont ici leurs distances internes.

Recherche des occurrences de motifs relationnels et définition d'un motif complexe par un ensemble partiellement ordonné de motifs.

Il est également intéressant, ces motifs étant extraits, d'une part, de les caractériser afin de pouvoir les rechercher sur des structures cibles, et d'autre part de les organiser afin de faciliter la recherche d'un alignement structural entre la famille étudiée et une protéine-cible. Concernant le premier point, nous présentons ci-dessous une représentation, sous forme d'une table et sous forme graphique, d'un motif structural parmi ceux de la figure 8 (extrait de (Pisanti, 2005)).

Sous cette forme, un motif peut être efficacement recherché sur un ensemble de protéines-cibles.

Concernant le second point, l'idée, encore à l'étude, est de tirer parti de ce que d'une part, un motif extrait pour une longueur donnée est maximal au sens où il n'existe pas de motif de même longueur ayant plus d'occurrences que lui, et de ce que d'autre part, les motifs s'organisent naturellement selon

(25)

leur taille et une éventuelle relation d'inclusion. Dans la mesure où on n'exige l'occurrence de ces motifs que sur une partie des structures utilisées (dans l'exemple, le motif existe dans 4 structures sur 5), la définition d'un tel ensemble organisé de motifs ne va pas de soi. En tout état de cause, la finalité est d'obtenir, sous une forme ou une autre, une signature flexible des structures étudiées.

RepSeek: recherche de similarités internes longues :

Ce logiciel, appelé DuplicFinder dans le projet original, a été rebaptisé « RepSeek». Il s’agit un algorithme de recherche de répétitions sur les séquences nucléiques.

À cause de leur dépendance quadratique en mémoire, les algorithmes d’alignement local récursif (i.e.

implémenté dans Swelfe) sont limités à de « petite séquences » ; on considère que la limite est de l’ordre de 10⁴ sur des ordinateurs modernes. Or, même les plus petits chromosomes entièrement séquencés sont plus grands que 10⁴ de quelques ordres de grandeur. Pour pallier ce problème, nous avons développé RepSeek, un programme permettant de détecter des similarités internes dans des séquences de très grande taille.

Ce programme recherche, dans sa version actuelle, tous les couples de toutes les séquences répétées dans de grandes séquences d’ADN. L’heuristique retenue est similaire à toutes celles utilisées pour rechercher de la similarité dans de large (ou de nombreuses) séquences. Dans une première étape, RepSeek détecte toutes les répétitions de mots strictement répétés dans la séquence (sans substitution ni insertion/délétion) pourvu qu’elles soient supérieures à une longueur minimum, Lmin. Dans une seconde étape, le programme étend la similarité au-delà des extrémités de ces répétitions strictes, en tolérant les dégénérescences (substitutions et insertions/délétions). Cette seconde opération est réalisée par un algorithme dérivé de l’alignement par programmation dynamique et produit donc un score associé à chaque paire de copies. Enfin, seules les répétitions étendues ayant un score supérieur à un score minium, Smin, sont conservées. Une représentation schématique du fonctionnement du programme est donnée sur la figure 9:

Figure 9 : « flow chart » du programme RepSeek

La première originalité du programme est qu’il permet de déterminer les valeurs clefs du programme (L_min et S_min) à partir de statistiques qui tiennent compte de la composition et de la longueur de la séquence.

RepSeek propose deux statistiques (P_seeds ou P_repeats) pour évaluer analytiquement la significativité d'une répétition. P_seeds est exprimée comme la probabilité P(Llongest-seed >= L) que la plus longue

(26)

graine observée dans une séquence aléatoire de même taille et composition soit plus longue que L [Karlin et Ost, 1985]. Réciproquement, en imposant un seuil statistique, on peut calculer la plus petite longueur Lmin au-dessus de laquelle on ne s'attend à trouver aucune graine dans une séquence aléatoire. Une statistique équivalente est disponible pour l'analyse des graines entre deux séquences.

Prepeats est la probabilité P(Sbest-repeat >= S) que le score du meilleur alignement local observé entre deux séquences aléatoires de tailles n et m soit plus grand qu’un score donné S. Cette probabilité peut être approximée par P = Exp(-γmnExp(tS)) [Karlin et Altschul, 1993]. Nous avons évalué les paramètres γ et t inconnus en utilisant la méthode proposée par Waterman et Vingron [Waterman et Vingron, 1994] pour une gamme de longueurs de séquences (1kb, 10kb, 100kb et 1Mb) et diverses compositions en GC. Ceci a été fait en « randomisant » 10.000 séquences aléatoires pour chaque combinaison de longueur et de composition et en employant une régression par moindres carrés pour estimer les deux paramètres. Par conséquent, nous pouvons associer une probabilité choisie à un score minimum Smin au-dessus duquel on ne s'attend pas à ce qu’une répétition soit trouvée dans une séquence aléatoire de même taille et de même composition.

Cela permet donc à l’utilisateur du programme de ne considérer que des répétitions ayant un sens biologique : on « élimine » toutes les répétitions qui pourraient s’expliquer simplement par l’accumulation de substitutions. La seconde originalité réside dans l’utilisation d’une matrice de score qui corrige l’influence forte de la composition de la séquence sur la longueur des répétitions. En effet, l’utilisation d’une simple matrice d’identité tend à construire des répétitions plus grandes dans les génomes dont le contenu en GC est biaisé (différent de 50%). Ainsi, on peut comparer, en utilisant RepSeek, le contenu en répétitions de génomes ayant des teneurs en GC très différentes.

Le programme est accessible en ligne à http://wwwabi.snv.jussieu.fr/public/RepSeek/ et a été publié dans la revue Bioinformatics [Achaz et al. 2007]. Nous envisageons d’étendre le programme pour lui permettre de gérer les familles de répétitions non pas en paires mais en familles. Cela nécessite quelques changements tant au niveau des étapes d’algorithmiques qu’au niveau des statistiques. Il faut réfléchir à réaliser l’extension multiple de répétitions strictes en répétitions non-strictes tout en gérant la reconstruction ad-hoc des familles d’éléments répétés.

Etat actuel

Nous devrions bientôt débuter l’analyse des familles des gènes contenant des duplications dans les espèces proches de manière systématique. C’est le point du programme sur lequel nous avons du retard, ce qui a aussi entraîné un retard dans l’étude des DDPI en évolution expérimentale dans E.

coli. Le retard sur ce point est dû essentiellement au temps nécessaire - et non prévu – pour l’établissement des liens entre les structures PDB et leurs séquences nucléiques (ceci est expliqué dans le chapitre « Mise à la disposition de la communauté des résultats »).

Collaborations internationales

- Collaboration avec le Swiss Institute of Bioinformatics (SIB) à Genève (voir dans le rapport la partie « base MicrOBI »)

Publications liées à l’ACI EVOLREP

[1] Rocha E.P.C., Cornet E., Michel B. (2005) Comparative and Evolutionary Analysis of the Bacterial Homologous Recombination Systems . PLoS Genet 1(2)

[2] Carpentier M., Brouillet S. and Pothier J. (2005) YAKUSA : a fast structural databases scanning method. Proteins : Structures, Fonctions and Bioinformatics, 61, 137-51

(27)

[3] Achaz G., Boyer F., Rocha E.P.C., Viari A., Coissac E. (2007) Repseek, a tool to retrieve approximate repeats from large DNA sequences. Bioinformatics. 23, 119-121

[4] Pisanti N., Soldano H. and Carpentier M. (2005) Incremental Inference of Relational Motifs with a Degenerate Alphabet. In 16th Annual Symposium on Combinatorial Pattern Matching (CPM 2005), Jeju Island, Korea, LNCS 3537. 229-240 Springer-Verlag

[5] Pisanti, N., Soldano H., Carpentier M. and Pothier J. (2006) Implicit and Explicit Representation of Approximated _Motifs. in Algorithms for Bioinformatics, C. Iliopoulos and K.

Park and K. Steinhofel editors, _King's College London Press. Texts in Algorithmics, 6, 1-14

[6] Houzelstein, D., Goncalves I.R., Fadden A.J., Sidhu S.S., Cooper D.N., Drickamer K., Leffler H., and Poirier F. (2004) Phylogenetic analysis of the vertebrate galectin family. Mol. Biol. Evol.

21:1177-1187

[communications/posters]

[1] Abraham A.L., Carpentier M., Pothier J., Rocha E.P.C., «Détection de duplications internes dans les structures des protéines », JOBIM 2005, 6-8 juilllet 2005, Lyon.

[2] Isabelle Gonçalves, Denis Houzelstein and Pierre Netter « Evolution of Galectin Family in Mammals: A Story of Duplications, Gene Conversions and Positive Selection », 11th Evolutionary Biology Meeting 2007, September 19-21, Marseille

Plusieurs publications sont en phase d’écriture ou de soumission :

- sur la partie méthode intégrée de recherche des duplications et résultats (A-L. Abraham, E.

Rocha)

- sur la partie étude expérimentale de l’évolution d’une DDPI (I. Gonçalves, D. Houzelstein, P. Netter)

- sur l’algorithme KmrOverlap et ses développements (N. Pisanti, H. Soldano, M. Carpentier)

Autres résultats : nouvelles collaborations et thèses.

- Thèse passée en décembre 2005 à l’Atelier de BioInformatique : Mathilde Carpentier - Thèse en cours d’Anne-Laure Abraham à l’Atelier de BioInformatique sur l’étude des

duplications aux 3 niveaux structuraux, protéiques et nucléiques. Cette thèse a débuté en octobre 2004.

- Nouvelles collaborations sur le projet galectines entre l’équipe Structure et Dynamique du Génome (Isabelle Gonçalves, Denis Houzelstein et Pierre Netter) et le Département Biologie Intégrative (Annie Orth et François Bonhomme, UMR 5554 Université de Montpellier 2)