n∗ 10 ,∀ 1 ≤ k ≤ m, fj
∗ est plac´e dans une nouvelle classe appel´ee “ autres ”, de centre z∗m+1 =f∗j;
sinon, fj
∗ est affect´e `a la classe dont il est le plus proche du centre. Le centre est alors remplac´e par la moyenne des ´el´ements de la classe.
Lorsque tous les individus sont class´es, les classes sont r´eunies par types “canc´ereuses”, “non-canc´ereuses” et “autres”, en utilisant un ´etiquetage avec la r`egle de la majorit´e, comme pr´ec´edemment . L’article de Petricoin con-clut que 50 spectres canc´ereux sur 50 et 47 spectres sains sur 50 ont ´et´e class´es correctement; de plus 16 spectres b´enins sur 16 ont ´et´e class´es comme “autres”.
2 Les trois ´etudes de Baggerly.
2.1 Reproductibilit´e de la m´ethode de Petricoin.
Baggerly propose dans la premi`ere de ses trois ´etudes de v´erifier la repro-ductibilit´e des r´esultats de Petricoin, en r´eutilisant la m´ethode que nous venons de d´ecrire sur le mˆeme ensemble de donn´ees. Il n’a pas obtenu les mˆemes r´esultats, ceci ´etant dˆu selon lui au fait que Petricoin aurait trait´e des donn´ees brutes, tandis que Baggerly a test´e sa m´ethode sur des donn´ees normalis´ees.
Baggerly a tout d’abord calcul´e une matrice de distanceM d´efinie comme suit:
M = (d(f∗j, f∗l))1≤ j,l ≤216.
Il a alors not´e une absence de distances importantes entre les spectres de mˆeme type et les spectres de types diff´erents. En effet, si le crit`ere de distance choisi ´etait id´eal, les distances entre spectres de mˆeme type seraient faibles, tandis que les distances entre spectres de types diff´erents seraient ´
elev´ees.
Par ailleurs, seules quatre distances de la matrice sont strictement sup´erieures `
a la distance fix´ee arbitrairement `a √
5
10, soit la borne utilis´ee dans l’algorithme pour cr´eer une nouvelle classe, lorsqu’on travaille avec des ensembles de car-dinal 5. Autrement dit, la m´ethode a cr´e´e deux classes, l’une de 212 spectres
et l’autre de 4 spectres. Ces r´esultats sont clairement moins bons que ceux de Petricoin.
Enfin, Baggerly ´emet une s´erie de remarques:
• le choix du cardinal de l’ensemble discriminante∗est arbitrairement fix´e `
a cinq; il semblerait tout aussi pertinent de chercher un sous-ensemble de cardinal plus petit ;
• le pouvoir discriminant de chaque ensemble ei n’est mesur´e qu’`a partir de la qualit´e du classement qu’il induit ;
• il est possible d’utiliser une autre distance que la distance euclidienne, qui tiendrait compte de la dispersion des classes ;
• la cr´eation d’un grand nombre de classes `a trop peu d’´el´ements devrait ˆ etre p´enalis´ee ; • la borne choisie √ ni 10 est arbitraire ;
• comment choisir le meilleur sous-ensemble, s’il existe deux sous-ensembles
e∗1 et e∗2 qui classent parfaitement tous les spectres?
2.2 G´en´eralisation des r´esultats.
Dans sa deuxi`eme ´etude, Baggerly souhaite voir s’il est possible de classer un ensemble d’individus `a l’aide de biomarqueurs identifi´es sur un autre ensem-ble. Il dispose pour cela de deux ensembles de donn´ees, l’un correspondant aux mˆemes 216 spectres mais trait´es avec un autre spectrom`etre de masse (dataset 2), et un autre ensemble contenant 253 spectres (91 normaux et 162 canc´ereux), obtenus `a partir du mˆeme spectrom`etre de masse que le dataset 2 (dataset 3).
La m´ethode pr´ec´edente a permis `a Baggerly de trouver 7 autres biomarqueurs sur le dataset 3. Pour g´en´eraliser les r´esultats, les biomarqueurs trouv´es pour un ensemble de donn´ees devraient ´egalement discriminer l’autre ensemble de donn´ees. Pour cela, une premi`ere matrice de distances est calcul´ee pour le dataset 3 comme pr´ec´edemment `a partir des 7 biomarqueurs correspondants; via un code de couleur la s´eparation des spectres sains et canc´ereux apparaˆıt clairement. En revanche, en utilisant les 5 biomarqueurs du dataset 2 (qui sont les mˆemes que ceux du dataset 1) pour calculer une matrice de distance sur le dataset 3, les spectres ne sont pas s´epar´es correctement. Ceci pose le probl`eme de la g´en´eralisation des r´esultats pour cette m´ethode.
2.3 Un autre moyen de confirmer les biomarqueurs.
Afin de confirmer les 7 biomarqueurs du dataset 3, Baggerly propose d’utiliser un test de Student de comparaison de moyennes. En effet, pour un biomar-queur donn´e, soientX la variable al´eatoire ayant pour r´ealisation l’intensit´e du biomarqueur chez un patient sain et Y la variable al´eatoire ayant pour r´ealisation l’intensit´e du mˆeme biomarqueur chez un patient canc´ereux. Si le biomarqueur consid´er´e discrimine effectivement les spectres canc´ereux des spectres non canc´ereux, l’hypoth`eseH0 :E(X) = E(Y)
devrait ˆetre rejet´ee. Pour tester cette hypoth`ese, `a chaque biomarqueur est associ´ee une valeurt, r´ealisation de la statistiqueT du test (qui est suppos´ee suivre une loi de Student, voir remarque ci-dessous). Dans le cas o`u H0 est rejet´ee, plust est ´elev´ee, plus le biomarqueur est jug´e discriminant. Ainsi le biomarqueur ayant la valeur tla plus ´elev´ee a permis de classer correctement 238 des 253 spectres.
Cette m´ethode peut donc ´egalement permettre de d´etecter des biomarqueurs, en calculant une valeur de t pour tous les points m/z des spectres, et en conservant ceux qui ont la valeur de t la plus ´elev´ee. Baggerly a utilis´e ce proc´ed´e pour trouver des biomarqueurs du dataset 3 diff´erents de ceux de Petricoin. Les biomarqueurs ainsi trouv´es classent bien les spectres, mais certains sont situ´es dans la zone de bruit (en d´ebut de spectre, les prot´eines repr´esent´ees ne proviennent pas des ´echantillons sanguins analys´es).
Remarque: Pour utiliser un test de Student, X et Y doivent suivre des lois
normales et ˆetre d’´ecarts-types ´egaux; n´eanmoins ces hypoth`eses ne semblent pas avoir ´et´e test´ees dans l’article.
Bibliographie
[1] E.F Petricoin III et al, Use of proteomic patterns in serum to identify ovarian cancer.Lancet; vol.359, 2002, pp. 572-577.
[2] K.A Baggerly et al, Reproductibility of SELDI-TOF protein patterns in
serum: comparing datasets from different experiments, Bioinformatics,
Vol. 20, n◦5, 2004, pp 777-785.
[3] J.T Tou et al, Eds.Pattern recognition principles, Reading, MA: Addison Wesley Publishing Company, 1974.