2 Les trois ´ etudes de Baggerly - Actes du groupe de travail en biostatistiques NANCY septembr

n∗ 10 ,∀ 1 ≤ k ≤ m, fj

∗ est plac´e dans une nouvelle classe appel´ee “ autres ”, de centre z_∗^m⁺¹ =f_∗^j;

sinon, fj

∗ est affecté à la classe dont il est le plus proche du centre. Le centre est alors remplacé par la moyenne des éléments de la classe.

Lorsque tous les individus sont classés, les classes sont réunies par types “cancéreuses”, “non-cancéreuses” et “autres”, en utilisant un étiquetage avec la règle de la majorité, comme précédemment . L’article de Petricoin con-clut que 50 spectres cancéreux sur 50 et 47 spectres sains sur 50 ont été classés correctement; de plus 16 spectres bénins sur 16 ont été classés comme “autres”.

2 Les trois ´etudes de Baggerly.

2.1 Reproductibilit´e de la m´ethode de Petricoin.

Baggerly propose dans la première de ses trois études de vérifier la repro-ductibilité des résultats de Petricoin, en réutilisant la méthode que nous venons de décrire sur le même ensemble de données. Il n’a pas obtenu les mêmes résultats, ceci étant dû selon lui au fait que Petricoin aurait traité des données brutes, tandis que Baggerly a testé sa méthode sur des données normalisées.

Baggerly a tout d’abord calcul´e une matrice de distanceM d´efinie comme suit:

M = (d(f_∗^j, f_∗^l))₁≤ j,l ≤216.

Il a alors noté une absence de distances importantes entre les spectres de même type et les spectres de types différents. En effet, si le critère de distance choisi était idéal, les distances entre spectres de même type seraient faibles, tandis que les distances entre spectres de types différents seraient ´

elev´ees.

Par ailleurs, seules quatre distances de la matrice sont strictement sup´erieures `

a la distance fix´ee arbitrairement `a √

10, soit la borne utilisée dans l’algorithme pour créer une nouvelle classe, lorsqu’on travaille avec des ensembles de car-dinal 5. Autrement dit, la méthode a créé deux classes, l’une de 212 spectres

et l’autre de 4 spectres. Ces r´esultats sont clairement moins bons que ceux de Petricoin.

Enfin, Baggerly ´emet une s´erie de remarques:

• le choix du cardinal de l’ensemble discriminante^∗est arbitrairement fix´e `

a cinq; il semblerait tout aussi pertinent de chercher un sous-ensemble de cardinal plus petit ;

• le pouvoir discriminant de chaque ensemble e_i n’est mesuré qu’à partir de la qualité du classement qu’il induit ;

• il est possible d’utiliser une autre distance que la distance euclidienne, qui tiendrait compte de la dispersion des classes ;

• la création d’un grand nombre de classes à trop peu d’éléments devrait ˆ etre pénalisée ; • la borne choisie √ ni 10 est arbitraire ;

• comment choisir le meilleur sous-ensemble, s’il existe deux sous-ensembles

e^∗₁ et e^∗₂ qui classent parfaitement tous les spectres?

2.2 Généralisation des résultats.

Dans sa deuxième étude, Baggerly souhaite voir s’il est possible de classer un ensemble d’individus à l’aide de biomarqueurs identifiés sur un autre ensem-ble. Il dispose pour cela de deux ensembles de données, l’un correspondant aux mêmes 216 spectres mais traités avec un autre spectromètre de masse (dataset 2), et un autre ensemble contenant 253 spectres (91 normaux et 162 cancéreux), obtenus à partir du même spectromètre de masse que le dataset 2 (dataset 3).

La méthode précédente a permis à Baggerly de trouver 7 autres biomarqueurs sur le dataset 3. Pour généraliser les résultats, les biomarqueurs trouvés pour un ensemble de données devraient également discriminer l’autre ensemble de données. Pour cela, une première matrice de distances est calculée pour le dataset 3 comme précédemment à partir des 7 biomarqueurs correspondants; via un code de couleur la séparation des spectres sains et cancéreux apparaˆıt clairement. En revanche, en utilisant les 5 biomarqueurs du dataset 2 (qui sont les mêmes que ceux du dataset 1) pour calculer une matrice de distance sur le dataset 3, les spectres ne sont pas séparés correctement. Ceci pose le problème de la généralisation des résultats pour cette méthode.

2.3 Un autre moyen de confirmer les biomarqueurs.

Afin de confirmer les 7 biomarqueurs du dataset 3, Baggerly propose d’utiliser un test de Student de comparaison de moyennes. En effet, pour un biomar-queur donné, soientX la variable aléatoire ayant pour réalisation l’intensité du biomarqueur chez un patient sain et Y la variable aléatoire ayant pour réalisation l’intensité du même biomarqueur chez un patient cancéreux. Si le biomarqueur considéré discrimine effectivement les spectres cancéreux des spectres non cancéreux, l’hypothèse

H₀ :E(X) = E(Y)

devrait être rejetée. Pour tester cette hypothèse, à chaque biomarqueur est associée une valeurt, réalisation de la statistiqueT du test (qui est supposée suivre une loi de Student, voir remarque ci-dessous). Dans le cas où H₀ est rejetée, plust est élevée, plus le biomarqueur est jugé discriminant. Ainsi le biomarqueur ayant la valeur tla plus élevée a permis de classer correctement 238 des 253 spectres.

Cette méthode peut donc également permettre de détecter des biomarqueurs, en calculant une valeur de t pour tous les points m/z des spectres, et en conservant ceux qui ont la valeur de t la plus élevée. Baggerly a utilisé ce procédé pour trouver des biomarqueurs du dataset 3 différents de ceux de Petricoin. Les biomarqueurs ainsi trouvés classent bien les spectres, mais certains sont situés dans la zone de bruit (en début de spectre, les protéines représentées ne proviennent pas des échantillons sanguins analysés).

Remarque: Pour utiliser un test de Student, X et Y doivent suivre des lois

normales et être d’écarts-types égaux; néanmoins ces hypothèses ne semblent pas avoir été testées dans l’article.

Bibliographie

[1] E.F Petricoin III et al, Use of proteomic patterns in serum to identify ovarian cancer.Lancet; vol.359, 2002, pp. 572-577.

[2] K.A Baggerly et al, Reproductibility of SELDI-TOF protein patterns in

serum: comparing datasets from different experiments, Bioinformatics,

Vol. 20, n^◦5, 2004, pp 777-785.

[3] J.T Tou et al, Eds.Pattern recognition principles, Reading, MA: Addison Wesley Publishing Company, 1974.

Dans le document Actes du groupe de travail en biostatistiques NANCY septembre 2005-juin 2006 (Page 41-44)