• Aucun résultat trouvé

n∗ 10 ,∀ 1 ≤ k ≤ m, fj

est plac´e dans une nouvelle classe appel´ee “ autres ”, de centre zm+1 =fj;

sinon, fj

est affect´e `a la classe dont il est le plus proche du centre. Le centre est alors remplac´e par la moyenne des ´el´ements de la classe.

Lorsque tous les individus sont class´es, les classes sont r´eunies par types “canc´ereuses”, “non-canc´ereuses” et “autres”, en utilisant un ´etiquetage avec la r`egle de la majorit´e, comme pr´ec´edemment . L’article de Petricoin con-clut que 50 spectres canc´ereux sur 50 et 47 spectres sains sur 50 ont ´et´e class´es correctement; de plus 16 spectres b´enins sur 16 ont ´et´e class´es comme “autres”.

2 Les trois ´etudes de Baggerly.

2.1 Reproductibilit´e de la m´ethode de Petricoin.

Baggerly propose dans la premi`ere de ses trois ´etudes de v´erifier la repro-ductibilit´e des r´esultats de Petricoin, en r´eutilisant la m´ethode que nous venons de d´ecrire sur le mˆeme ensemble de donn´ees. Il n’a pas obtenu les mˆemes r´esultats, ceci ´etant dˆu selon lui au fait que Petricoin aurait trait´e des donn´ees brutes, tandis que Baggerly a test´e sa m´ethode sur des donn´ees normalis´ees.

Baggerly a tout d’abord calcul´e une matrice de distanceM d´efinie comme suit:

M = (d(fj, fl))1 j,l ≤216.

Il a alors not´e une absence de distances importantes entre les spectres de mˆeme type et les spectres de types diff´erents. En effet, si le crit`ere de distance choisi ´etait id´eal, les distances entre spectres de mˆeme type seraient faibles, tandis que les distances entre spectres de types diff´erents seraient ´

elev´ees.

Par ailleurs, seules quatre distances de la matrice sont strictement sup´erieures `

a la distance fix´ee arbitrairement `a

5

10, soit la borne utilis´ee dans l’algorithme pour cr´eer une nouvelle classe, lorsqu’on travaille avec des ensembles de car-dinal 5. Autrement dit, la m´ethode a cr´e´e deux classes, l’une de 212 spectres

et l’autre de 4 spectres. Ces r´esultats sont clairement moins bons que ceux de Petricoin.

Enfin, Baggerly ´emet une s´erie de remarques:

• le choix du cardinal de l’ensemble discriminanteest arbitrairement fix´e `

a cinq; il semblerait tout aussi pertinent de chercher un sous-ensemble de cardinal plus petit ;

• le pouvoir discriminant de chaque ensemble ei n’est mesur´e qu’`a partir de la qualit´e du classement qu’il induit ;

• il est possible d’utiliser une autre distance que la distance euclidienne, qui tiendrait compte de la dispersion des classes ;

• la cr´eation d’un grand nombre de classes `a trop peu d’´el´ements devrait ˆ etre p´enalis´ee ; • la borne choisie ni 10 est arbitraire ;

• comment choisir le meilleur sous-ensemble, s’il existe deux sous-ensembles

e1 et e2 qui classent parfaitement tous les spectres?

2.2 G´en´eralisation des r´esultats.

Dans sa deuxi`eme ´etude, Baggerly souhaite voir s’il est possible de classer un ensemble d’individus `a l’aide de biomarqueurs identifi´es sur un autre ensem-ble. Il dispose pour cela de deux ensembles de donn´ees, l’un correspondant aux mˆemes 216 spectres mais trait´es avec un autre spectrom`etre de masse (dataset 2), et un autre ensemble contenant 253 spectres (91 normaux et 162 canc´ereux), obtenus `a partir du mˆeme spectrom`etre de masse que le dataset 2 (dataset 3).

La m´ethode pr´ec´edente a permis `a Baggerly de trouver 7 autres biomarqueurs sur le dataset 3. Pour g´en´eraliser les r´esultats, les biomarqueurs trouv´es pour un ensemble de donn´ees devraient ´egalement discriminer l’autre ensemble de donn´ees. Pour cela, une premi`ere matrice de distances est calcul´ee pour le dataset 3 comme pr´ec´edemment `a partir des 7 biomarqueurs correspondants; via un code de couleur la s´eparation des spectres sains et canc´ereux apparaˆıt clairement. En revanche, en utilisant les 5 biomarqueurs du dataset 2 (qui sont les mˆemes que ceux du dataset 1) pour calculer une matrice de distance sur le dataset 3, les spectres ne sont pas s´epar´es correctement. Ceci pose le probl`eme de la g´en´eralisation des r´esultats pour cette m´ethode.

2.3 Un autre moyen de confirmer les biomarqueurs.

Afin de confirmer les 7 biomarqueurs du dataset 3, Baggerly propose d’utiliser un test de Student de comparaison de moyennes. En effet, pour un biomar-queur donn´e, soientX la variable al´eatoire ayant pour r´ealisation l’intensit´e du biomarqueur chez un patient sain et Y la variable al´eatoire ayant pour r´ealisation l’intensit´e du mˆeme biomarqueur chez un patient canc´ereux. Si le biomarqueur consid´er´e discrimine effectivement les spectres canc´ereux des spectres non canc´ereux, l’hypoth`ese

H0 :E(X) = E(Y)

devrait ˆetre rejet´ee. Pour tester cette hypoth`ese, `a chaque biomarqueur est associ´ee une valeurt, r´ealisation de la statistiqueT du test (qui est suppos´ee suivre une loi de Student, voir remarque ci-dessous). Dans le cas o`u H0 est rejet´ee, plust est ´elev´ee, plus le biomarqueur est jug´e discriminant. Ainsi le biomarqueur ayant la valeur tla plus ´elev´ee a permis de classer correctement 238 des 253 spectres.

Cette m´ethode peut donc ´egalement permettre de d´etecter des biomarqueurs, en calculant une valeur de t pour tous les points m/z des spectres, et en conservant ceux qui ont la valeur de t la plus ´elev´ee. Baggerly a utilis´e ce proc´ed´e pour trouver des biomarqueurs du dataset 3 diff´erents de ceux de Petricoin. Les biomarqueurs ainsi trouv´es classent bien les spectres, mais certains sont situ´es dans la zone de bruit (en d´ebut de spectre, les prot´eines repr´esent´ees ne proviennent pas des ´echantillons sanguins analys´es).

Remarque: Pour utiliser un test de Student, X et Y doivent suivre des lois

normales et ˆetre d’´ecarts-types ´egaux; n´eanmoins ces hypoth`eses ne semblent pas avoir ´et´e test´ees dans l’article.

Bibliographie

[1] E.F Petricoin III et al, Use of proteomic patterns in serum to identify ovarian cancer.Lancet; vol.359, 2002, pp. 572-577.

[2] K.A Baggerly et al, Reproductibility of SELDI-TOF protein patterns in

serum: comparing datasets from different experiments, Bioinformatics,

Vol. 20, n5, 2004, pp 777-785.

[3] J.T Tou et al, Eds.Pattern recognition principles, Reading, MA: Addison Wesley Publishing Company, 1974.

Documents relatifs