• Aucun résultat trouvé

Ce chapitre sur l’alignement des pics et le remplissage de la matrice d’expres-sion nous a permis de d´ecrire la derni`ere ´etape du pr´e-tratiement des donn´ees. A ce sujet, la m´ethode de clustering hi´erarchique que nous proposons pour r´ealiser l’alignement des spectres SELDI-TOF est une contribution int´eressante de notre travail par rapport au m´ethodes existantes auparavant. N´eanmoins, ses limites restent `a mon avis tr`es importantes, car elle ne fonctionne que si les spectres sont correctement calibr´es, et elle est difficile la g´en´eraliser pour l’alignement de donn´ees bi-dimensionnelle de type LCMS. Sur ce point, Lange et al. [68] adopte a mon avis la bonne d´emarche pour aligner les exp´eriences LCMS. L’algorithme qu’elle propose commence par calculer les distances entre tous les couples de pics pr´esents `a l’int´erieur d’une exp´erience, puis compare ces distances entre deux exp´eriences pour en d´eduit la meilleure correspondance entre les pics. L’id´ee utilis´ee ici est proche de celle que nous avons ´evoqu´ee dans la section 3.4.1 pour rendre nos m´ethodes insensible `a la normalisation des spectres de masse : les positions des pics ne sont pas compar´ees directement d’une exp´erience `a l’autre, mais elles sont d’abord compar´ees `a l’int´erieur d’une exp´erience avant que l’on analyse le r´esultat de cette comparaison entre les exp´eriences. En proc´edant ainsi, de mani`ere relative, on s’abstrait plus facilement des positions absolus des pics qui sont soumis `a des al´eas, alors que les informations relatives `a l’int´erieur d’une mˆeme exp´erience sont plus robustes.

Mentionnons ´egalement le travail de Ressom et al. [101] qui propose un moyen d’incorporer l’alignement dans le processus d’apprentissage. L’id´ee de ce travail est de ne pas prendre de d´ecision d’alignement durant le pr´e-traitement, mais de construire un jeu de donn´ees avec plusieurs possibilit´es d’alignement, puis de laisser choisir le processus d’apprentissage avec des crit`eres de perfor-mance de classification. Dans le chapitre 7, nous allons voir comment exploiter ce crit`ere de performance, ainsi que des crit`eres de stabilit´e, pour ´evaluer la qualit´e de notre pipeline de pr´e-traitement qui est maintenant compl`etement d´ecrit. Mais avant cela, dans le chapitre 6, voyons comment ont ´et´e exploit´e ces algorithmes de pr´e-traitement pour ´etudier la reproductibilit´e des protocoles biologiques.

Chapitre 6

Evaluation des protocoles de pr´ eparation MALDI

En introduction, nous avons vu que la reproductibilit´e des exp´eriences MALDI-TOF et SELDI-MALDI-TOF pose un certain nombre de probl`emes (section 2.3). Ces probl`emes peuvent provenir de plusieurs sources, et on peut donc agir `a plu-sieurs niveaux pour tenter d’am´eliorer la reproductibilit´e globale des analyses (section 2.3.1). Dans le chapitre 7, nous cherchons `a optimiser la qualit´e des m´ethodes de pr´e-traitement bio-informatique qui permettent d’extraire la ma-trice d’expression `a partir des spectres de masse. Les ´etudes men´ees dans ce cha-pitre 7 permettent d’avoir une vision claire pour guider notre choix des m´ethodes de pr´e-traitement. Mentionnons en particulier, la section 7.3.2 qui donne une id´ee de l’impact du pr´e-traitement sur la reproductibilit´e des analyses men´ees.

Dans ce nouveau chapitre, c’est par contre la reproductibilit´e des protocoles de pr´eparation des ´echantillons qui nous int´eresse.

Effectivement, dans le pr´esent chapitre, nous ´etudions la reproductibilit´e des exp´eriences MALDI-TOF pour huit protocoles diff´erent de pr´eparation des

´echantillons biologiques et d’acquisition des spectres de masse. Nous allons voir que le choix du protocole `a un impact important sur la reproductibilit´e des exp´eriences, et au terme de ce chapitre nous sommes en mesure de donner le protocole le plus robuste pour l’analyse des ´echantillons d’urine dont il est ques-tion dans ce chapitre. Pour mener cette ´etude, le travail des chapitres pr´ec´edents (est celui du chapitre 7) fourni des outils pr´ecieux pour r´ealiser le pr´e-traitement au mieux, cela permet de se concentrer seulement sur la reproductibilit´e des protocoles. Signalons enfin que le travail pr´esent´e ici et le fruit d’une collabo-ration avec la fondation pour la recherche biom´edicale de l’acad´emie d’Ath`enes qui a mis en place l’exp´erience biologique et s’est occup´ee de la g´en´eration des donn´ees, nous sommes intervenu pour l’analyse bio-informatique. Ce travail est consign´e dans un article, [131], dont nous reprenons l’essentiel de notre contri-bution dans la suite.

Le chapitre contient trois sections. La section 6.1 pr´esente la configuration 93

exp´erimentale de nos analyses, on y d´ecrit d’une part comment sont obtenus les donn´ees (les spectres de masse) et d’autres part les analyses bio-informatiques r´ealis´ees. La section 6.2 pr´esente les r´esultats obtenus avec ces analyses. Enfin, la section 6.3, tire les conclusions des exp´eriences.

6.1 Configuration exp´ erimentale

Comme nous venons de le mentionner, cette section pr´esente la configuration exp´erimentale de nos analyses, on y d´ecrit d’une part la mani`ere dont sont obtenus les spectres de masse (section 6.1.1) et d’autres part les analyses bio-informatiques qui y sont effectu´ees (section 6.1.2).

6.1.1 Pr´ eparation des ´ echantillons

L’analyse de reproductibilit´e que nous menons repose sur plusieurs r´ep´etitions de la mˆeme exp´erience MALDI-TOF sur le mˆeme ´echantillon biologique. L’´echantillon examin´e est un m´elange d’urines qui proviennent de quatre individus en bonne sant´e. En comparaison aux ´echantillons de serum, l’analyse des profiles urinaires par spectrom´etrie de masse `a fait l’objet de nettement moins d’´etudes. Les urines pr´esentent pourtant l’avantage d’ˆetre facile `a collecter et elles contiennent des prot´eines utiles pour refl´eter l’´etat de sant´e g´en´eral des patients. Elles sont donc un support id´eal pour la recherche de nouveaux bio-marqueurs, et c’est pour-quoi il est int´eressant de se pencher sur l’analyses des protocoles de pr´eparation de ces ´echantillons.

Plusieurs protocoles de pr´eparation couramment employ´ees ont ´et´e appliqu´ees

`a l’´echantillon d’urine en question avant de le soumettre `a spectrom´etrie de masse. Ces protocoles ont fait l’objet d’une premi`ere s´election empirique bas´ee sur la qualit´e des spectres de masse qu’il permettent d’obtenir `a partir d’un

´echantillon d’urine (voir [131]). Parmi les protocoles s´electionn´es, on distingue tous d’abord deux approches de dilution et deux approches d’ultrafiltration des ´echantillons. Les d´etails des protocoles biologiques sont donn´ees dans [131], mais pour faire simple retenons que soit les urines sont trait´ees `a l’ur´ee avant dilution (SMU), soit elles ne le sont pas (SM) ; et soit la m´ethode d’ultra-filtration laisse passer les prot´eines qui on un poids mol´eculaire sup´erieur `a 10kDa (UF10kD), soit elle laisse passer celles qui ont un poids sup´erieur `a 5kDa (UF5kD)1. En plus de cela, l’acquisition MALDI-MS des spectres est men´ee avec un des 3 types de matrice suivant : soit une matrice de type α-cyano-4-hydroxy-cinnamic (ACCA), soit une matrice de type 2,5-dihydroxybenzoic (DHB), soit enfin une matrice de type synapinic (SA)2. Au final, selon le

pro-1. La m´ethode d’ultrafiltration doit en th´eorie ´eliminer toutes les prot´eines dont le poids mol´eculaire est inf´erieur au seuil 5kDa ou 10kDa, mais dans la pratique toutes les prot´eines ne sont pas filtr´ees. Ainsi, les spectres de masse contiennent de nombreux pics avec des masses inf´erieures au seuils de filtration.

2. Remarquer que les protocoles de pr´eparation ne font pas intervenir de surface d’affinit´e pour capturer les prot´eines, on pr´ef´erera donc parler ici de technologie MALDI-TOF plutˆot que SELDI-TOF malgr´e leur ressemblances.

tocole de pr´eparation et la matrice utilis´ee, 8 combinaisons sont consid´er´ees dans nos analyses : ACCA/SM, ACCA/SMU, ACCA/UF10kD, ACCA/UF5kD, DHB/SM, DHB/UF10kD, DHB/UF5kD, SA/UF10kD. Pour chacune de ces combinaisons, le protocole de pr´eparation est r´ep´et´e 10 fois sur dix aliquots dis-tincts de l’´echantillon d’urine, et chaque pr´eparation est d´epos´ee sur 5 plaques pour la soumettre 5 fois `a l’analyse MALDI-TOF. On obtient donc 50 spectres de masse pour chacune des 8 configuration exp´erimentale, soit un total de 400 spectres de masse `a analyser. En th´eorie, les 50 spectres de masses r´ealis´es selon la mˆeme configuration exp´erimentale sont exactement identiques car ils r´esultent de la mˆeme analyse du mˆeme ´echantillon de d´epart. En pratique cependant, on observe des diff´erences li´ees aux probl`emes de reproductibilit´e des exp´eriences, et notre objectif dans la suite est de quantifier ces diff´erences et d’´etudier les effets de la pr´eparation des ´echantillons sur cette reproductibilit´e. Pour cela, on s’aidera du d´ecouplage en 5x10 spectres de masse, dans chaque configura-tion, afin de dissocier les variabilit´es li´ees `a la pr´eparation des ´echantillons des variabilit´es li´ees `a l’acquisition des spectres de masse. En plus, nous disposons

´egalement, pour chaque configuration, de 5 spectres de masse obtenus `a partir d’un ´echantillon ”blanc” cens´ee ne contenir aucun pic qui nous aiderons `a ´etablir un r´esultat de r´ef´erence pour nos analyses. Nous allons voir dans la suite com-ment exploiter ce d´ecouplage et les donn´ees des spectres blancs lors de l’analyse des donn´ees, mais avant cela quelques mot sur l’acquisition des spectres.

L’acquisition des spectres de masse est effectu´ee sur un instrument Ultra-flex I MALDI-TOF-TOF-MS (Bruker Daltonics). Les ´echantillons sont trait´es dans un ordre al´eatoire pour r´epartir d’´eventuelles effets li´ees `a l’acquisition des spectres sur toutes les exp´eriences. En plus de cela, une calibration externe de l’instrument est r´ealis´ee au moyen d’´echantillons standards (dont on connaˆıt la composition) afin d’ajuster la position des pics observ´ees sur leur position th´eorique. La plage de valeur pour l’acquisition des spectres est 1000-15000 Da pour les ´echantillons pr´epar´es avec les matrices ACCA et DHB, et elle est de 4000-25000Da pour les ´echantillons pr´epar´ees avec la matrice SA, car SA est connue pour faciliter l’ionisation des prot´eines qui ont un poids mol´eculaire sup´erieure. Les diff´erences entre les plages d’acquisition nous poussera `a traiter les ´echantillons de type ”SA” s´epar´ement des autres lorsqu’il s’agira de com-parer les protocoles entre eux. Concernant la limite inf´erieur de l’acquisition `a 1000Da, elle permet d’´eviter les probl`emes li´ees aux petites mol´ecules de matrice qui sont responsable de l’apparition d’une ligne de base importante en d´ebut de spectre. La section qui suit pr´esente le traitement bio-informatique des spectres de masses qui sont obtenus lors de ces acquisitions.

6.1.2 Analyse bio-informatique des spectres de masse

L’analyse bio-informatique des spectres de masse commence par une d´etection des pics dans chacun d’eux. Nous r´ealisons ces d´etections `a l’aide de l’algorithme de recherche des vall´ees pr´esent´e dans la section 4.2.2, et apr`es avoir op´er´e un lissage du signal grˆace `a une moyenne mobile des intensit´es qui emploie une fenˆetre glissante de 30 valeurs (dans la section 7.3.2, nous avons observ´e que ce

lissage tend `a am´eliorer l’efficacit´e de la d´etection). L’estimation du niveau de bruit, n´ecessaire `a la d´etection des pics, est obtenue en calculant la d´eviation standard entre le signal original et le signal liss´e dans une fenˆetre glissante de 1000 valeurs. Seul les pics avec un rapport signal/bruit sup´erieur `a un seuil S/N donn´e sont consid´er´es. Cette proc´edure permet de d´eterminer la position en m/z des pics, et elle est peu sensible `a la pr´esence d’une ligne de base dans les spectres de masse (voir section 4.2.2).

Concernant l’intensit´e des pics, nous avons choisi de consid´erer la diff´erence d’intensit´e entre le sommet du pic et la ligne de base, si bien qu’un calcul de la ligne de base est tout de mˆeme n´ecessaire apr`es que nous ayons d´etermin´e la position des pics. Nous utilisons pour cela l’op´erateur d’ouverture mentionn´e dans la section 3.2 avec une fenˆetre glissante contenant 1/20`eme du nombre total de valeurs disponible dans le spectre. Aussi, afin de pouvoir comparer les intensit´es des pics des diff´erents spectres, nous les normalisons par le courant ionique total du spectre (la somme des intensit´e apr`es lissage et ´elimination de la ligne de base). Au final, selon la valeur du seuil S/N, nous obtenons une liste de pics plus ou moins longue, pour chaque spectre de masse, qui indique la position des pics en m/z et leurs intensit´es normalis´ees. Notre travail dans la suite est d’analyser ces listes de pics et de les comparer entre elles.

La comparaison de plusieurs listes de pics n´ecessite que l’on soit en mesure d’identifier les ´el´ements qu’elles ont en communs, et ceux qui diff`erent. Cela passe par un alignement des pics que nous r´ealisons avec notre algorithme de clustering hi´erarchique MZCL (pr´esent´e dans la section 5.1.2), en tol´erant une erreur maximum de 0.2% sur la position des pics dans chaque cluster qu’il construit. Aussi, il est utile de d´efinir une mesure pour estimer la similarit´e entre deux ensembles d’´el´ements. Nous utiliserons la distance de Tanimoto qui

`a deux ensemble X et Y associe la valeur

D(X, Y) =|X|+|Y| −2|X∩Y|

|X|+|Y| −|X∩Y|

´egale `a 0 lorsque les ensembles sont identiques, et `a 1 lorsqu’ils sont disjoints.