• Aucun résultat trouvé

L’algorithme de d´etection des pics que nous avons vu dans la section 4.2.2 est capable de calculer le signal cach´e derri`ere un spectre de masse et d’extraire la position des pics, c’est `a dire leur m/z. De plus, nous avons vu qu’il peut ˆetre ex´ecut´e directement sur les donn´ees brutes des spectres de masse car il ne n´ecessite pas de lissage du signal et qu’il est tr`es peu sensible `a l’´elimination de la ligne de base. Afin maintenant d’extraire les informations relatives `a l’expression des prot´eines cach´ees derri`ere les pics, il faut maintenant nous int´eresser `a leur intensit´e (ou hauteur), et `a leur aire qui est r´eput´ee ˆetre une meilleure estimation de l’expression des prot´eines [94]. Dans la litt´erature, l’intensit´e des pics est g´en´eralement donn´ee par l’intensit´e du spectre de masse `a l’endroit ou se trouve le pic une fois que la ligne de base a ´et´e ´elimin´e. L’aire des pics se calcule g´en´eralement en consid´erant l’aire sous la courbe MS situ´ee sur toute la largeur du pic (souvent apr`es lissage et ´elimination de la ligne de base). Pour d´eterminer cette largeur, on peut, comme Li et al. [35], se contenter de consid´erer que la r´esolution du spectre est constante mais celle-ci est parfois difficile `a estimer dans les spectres SELDI-TOF. Il apparaˆıt donc pr´ef´erable de chercher `a d´elimiter dans le spectre la largeur de la r´egion influenc´ee par le pic comme le font Fung et Enderwick [32] et Pratapa et al. [94]. Pratapa propose par exemple de rechercher de chaque cot´e du pic, la premi`ere position o`u le gradient du spectre liss´e change de signe, mais il se peut que ce point soit tr`es ´eloign´e du pic et le probl`eme du param´etrage du lissage se pose.

Dans notre travail en revanche, nous cherchons `a d´efinir une proc´edure de calcul des intensit´es et des aires qui ne n´ecessite ni l’´elimination de la ligne de base, ni un lissage des spectres, `a l’inverse des approches mentionn´ees. Si nous parvenons `a cela, nous aurons d´efinit une proc´edure de d´etection de pics et d’extraction des informations d’expression qui peut ˆetre ex´ecut´ee directement sur les donn´ees brutes, et qui n´ecessite un minimum d’´etape de pr´e-traitement (l’estimation du niveau de bruit est ´eventuellement n´ecessaire pour d´eterminer les pics, mais sinon pas besoin de lissage des spectres ni d’´eliminer la ligne de base,). Notre approche passe par la d´efinition d’un mod`ele qui caract´erise la forme d’un pic et qui va ˆetre ajust´e sur les donn´ees afin d’extraire les informa-tions recherch´ees.

Souvent, le mod`ele que l’on cherche `a ajuster sur les pics est de forme gaus-sienne [39]. La m´ethode que nous proposons dans [90], et que nous reprenons maintenant repose `a l’inverse sur un mod`ele lin´eaire en quatre morceaux qui n’est pas sym´etrique par rapport au sommet du pic comme un mod`ele gaussien peut l’ˆetre. Notre mod`ele est illustr´ee sur la figure 4.6, il est ajust´e une fois que l’on a d´etermin´e les sommets pdes pics `a l’aide de l’algorithme vu dans la section 4.2.2. Ce mod`ele est compos´e de deux segments obliques partant du sommet p et qui s’ajuste sur les pentes du pic avec `a leurs extr´emit´es deux segments horizontaux pour mod´eliser la base du pic. ´Etant donn´ee les positions p, l’algorithme d’ajustement du mod`ele se charge de le d´ecouper le spectre en r´egion en sectionnant au niveau des points d’intensit´e minimum situ´es entre

6300 6400 6500 6600 6700 6800

Figure4.6 – Illustration de l’ajustement du mod`ele lin´eaire en deux morceaux pour le calcul de l’aire d’un pic. Le mod`ele est constitu´e du segment joignantp

`apret de la demi-droite horizontal d’originepqui est ajust´e de mani`ere optimal sur les donn´ees.

deux pics cons´ecutifs. De cette mani`ere, chaque r´egion ne contient qu’un seul pic et on op`ere individuellement sur chacune un ajustement des mod`eles. L’al-gorithme recherche donc `a l’int´erieur de chaque r´egion le point de d´epartpl et le point finalprdu pic respectivement situ´es `a gauche et `a droite du sommetp.

La position depr (resp.pl) est d´etermin´ee en ajustant optimalement (au sens des moindres carr´ees) le mod`ele lin´eaire en deux morceaux constitu´e du segment joignant les pointspetpr(resp.pl), et du segment horizontal d’originepr(resp.

pl). Formellement, le pointprest donc obtenu `a partir de l’´equation 4.3 qui mi-nimise `a la fois l’erreur sur le segment oblique (´equation 4.1) et sur le segment horizontal (´equation 4.2) – dans ces formules, px and py sont respectivement l’index et l’intensit´e du pointpdans le spectre de masse –.

errseg(pr) = D’un point de vu pratique, la solution de ce probl`eme d’optimisation est

Figure 4.7 – Extraction des caract´eristiques (largeur, hauteur, aire) des pics, avec et sans chevauchement. Lorsque deux pics se chevauchent, la hauteur des pics n’est pas influenc´e par la cuvette qui se forme car dans le calcul on consid`ere seulement la vall´ee gauche/droite la plus profonde pour chaque pics.

trouv´ee en ´enum´erant exhaustivement les abscisses pxr de pr (resp. pxl de pl) pour chaque index entre p et la fin de la r´egion. L’ordonn´ee pyr, de pr, est obtenue par optimisation classique des moindres carr´ees. Au final, l’algorithme

`a une complexit´e tr`es faible car pouvons ajuster les mod`eles de tous les pics en O(n), o`un est le nombre de valeurs d’´echantillonnage dans tous le spectre de masse.

Une fois les mod`eles ajust´es aux donn´ees, nous d´efinissons la hauteur du pic p comme h= max(py −pyl, py−pyr), la largeur du pic comme la distance pxr−pxl, et l’aire du pic pcomme la surface du triangle (pr, p, pl). Noter que ces derni`eres valeurs d´ependent de l’unit´e utilis´e en abscisse. Le plus logique est d’utiliser le temps de vol comme unit´e car les valeurs d’´echantillonnage sont espac´es r´eguli`erement. Noter aussi que dans le cas ou deux pics se chevauchent, une cuvette se forme entre les deux pics `a une intensit´e ´elev´ee, et la base des pics sera localis´ee dans cette cuvette. Par contre, la hauteur h du pic ne sera pas influenc´e par ce ph´enom`ene car dans son calcul on consid`ere le maximum des deux hauteurs (voir exemple de la figure 4.7). Aussi, remarquer que pour l’aire du pic, nous pr´ef´erons consid´erer la surface du triangle qui se forme dans le mod`ele plutˆot que l’aire sous la courbe dans la r´egion pl-pr. Nous avons ainsi moins de probl`emes avec les pics qui se chevauchent, l’estimation de l’aire est plus robuste au bruit, et nous ´evitons les probl`emes si la ligne de base est mal estim´ee dans certaines r´egions du spectre. Effectivement, comme pour l’algorithme de d´etection de pics, comme les trois pointsp,pletprqui d´efinissent le pic sont d´efinies localement et que le calcul de l’aire ne fait intervenir que des diff´erences, l’´elimination de la ligne de base n’affecte pas beaucoup le calcul des aires.

Mentionnons ´egalement une alternative int´eressante pour estimer l’aire des pics lorsque nous ne poss´edons pas le signal brute, mais seulement l’intensit´e et

la position des pics ce qui peut arriver dans des situations ou un op´erateur `a d´ej`a op´erer la d´etection des pics. Pour cela, rappelons que dans la section 3.2, nous avons vu que la transformation d’un spectre de masse SELDI-TOF qui utilise en abscisse le logarithme du temps de vol g´en`ere des signaux dont les pics ont des largeurs plus uniforme que dans les spectres originaux. Faisons la supposition que cette transformation g´en`ere des pics de largeurs constantesw tout au long du spectre. Un pic qui se trouve initialement `a la positiontoccupe donc, apr`es transformation logarithmique, la r´egion qui va de"

log(t)−2t

# jus-qu’`a"

log(t) +w2#

. Cela correspond dans le spectre initial `a la r´egion de spectre qui d´ebute enpl="

elog(t)−w2#

et se termine enpr="

elog(t)+w2#

, or la longueur de cette r´egion est proportionnelle au temps de volto`u se trouve le pic :

pr−pl=t(ew−e−w)∝t

Ce r´esultat sugg`ere donc que la largeur des pics augmente proportionnellement avec leur temps de vol dans le spectre. Ce r´esultat n’est pas surprenant et revient

`a faire l’hypoth`ese couramment faite que la r´esolution4 des spectres SELDI-TOF est constante au long du spectre [90, 35, 32, 5, 116]. Faisons maintenant la supposition que les pics ont une forme de triangle isoc`ele dont la hauteurh est ´egale `a la hauteur du pic, et la base est ´egale `a la largeur du pic. Comme la largeur de la base est proportionnelle `a la positiontdu pic, alors son aireA suit la formule :A∝ht. En cons´equence nous pouvons estimer l’aire d’un pic simplement en multipliant sa hauteur par son temps de vol.