• Aucun résultat trouvé

Bioinformatique en oncologie : une discipline incontournable

N/A
N/A
Protected

Academic year: 2022

Partager "Bioinformatique en oncologie : une discipline incontournable"

Copied!
4
0
0

Texte intégral

(1)

REVUE MÉDICALE SUISSE

WWW.REVMED.CH 18 mai 2016

978

Bioinformatique en oncologie : une discipline incontournable

La bioinformatique est devenue incontournable en oncologie cli- nique et en recherche. Discipline récente associant biologie, in- formatique et mathématiques, elle permet l’analyse de données clinico-biologiques non structurées à des échelles autrefois im- possibles.

Les analyses bioinformatiques ont permis la reclassification de certains cancers avec un impact sur leur prise en charge. Les si- gnatures moléculaires s’intègrent à la pratique clinique lors qu’elles sont rigoureusement validées. D’autres applications pourraient permettre des avancées supplémentaires dans la médecine de précision.

Une réflexion éthique, un support technique robuste répondant à des normes de qualité, et une collaboration multidisciplinaire sont les fondations indispensables au développement harmonieux des projets bioinformatiques en oncologie clinique et en recherche.

Bioinformatics : a key role in oncology Bioinformatics is essential in clinical oncology and research. Com- bining biology, computer science and mathematics, bioinformatics aims to derive useful information from clinical and biological data, often poorly structured, at a large scale.

Bioinformatics approaches have reclassified certain cancers based on their molecular and biological presentation, improving treat- ment selection. Many molecular signatures have been developed and, after validation, some are now usable in clinical practice. Other applications could facilitate daily practice, reduce the risk of error and increase the precision of medical decision-making.

Bioinformatics must evolve in accordance with ethical considera- tions and requires multidisciplinary collaboration. Its application depends on a sound technical foundation that meets strict quality requirements.

IntroductIon

Dans le domaine de la santé, les progrès techniques comme le Next generation sequencing (NGS), la cytométrie en flux et l’analyse d’images apportent des données biologiques « brutes » en quantité phénoménale (data deluge). De plus, l’informati­

sation des pratiques médicales augmente encore la quantité et l’accessibilité des données cliniques et paracliniques. L’ex­

pression Big Data, apparue peu avant l’an 2000, traduit l’ex­

plosion quantitative de données numériques et la possibilité d’en tirer des conclusions potentiellement utiles.

Les outils statistiques classiques ne sont pas adaptés à l’ana­

lyse de ces données en raison, outre leur volume, de l’absence d’une structure bien définie. Le traitement de données clini­

ques et biologiques est un défi scientifique majeur, celui de la bioinformatique. Terme utilisé pour la première fois dans les années 1970,1,2 la bioinformatique est devenue incontournable, comme en témoigne l’augmentation exponentielle dans Pub­

Med des articles contenant l’inférence bioinformatics. La bio­

informatique se situe à la rencontre de la biologie, de l’infor­

matique et des mathématiques. Elle vise à analyser des don­

nées afin de répondre à une question scientifique, à générer des hypothèses, à modéliser, et à découvrir des relations et des différences clinico­biologiques qui passeraient autrement inaperçues.

Des exemples concrets provenant de la clinique et de la recher­

che serviront à illustrer les principales applications bioinfor­

matiques et leur impact réel dans la pratique de l’oncologie.

ApplIcAtIons clInIques Next generation sequencing

Depuis la description dans Nature du double brin d’ADN en 1953 par Watson et Crick,3 un long chemin a permis, en 2001, de voir publiée la première séquence complète du génome hu­

main.4,5 Cet aboutissement, résultat d’une remarquable colla­

boration entre de nombreux laboratoires pendant plus de dix ans, a également occasionné des coûts majeurs (2,7 milliards de dollars pour le Human genome project). Si aujourd’hui on peut mentionner le génome à 1000 dollars,6 annoncé symbo­

liquement en 2014, c’est non seulement grâce à l’amélioration technologique des appareils de séquençage de l’ADN, mais aussi en grande partie grâce à l’optimisation des outils de trai­

tement bioinformatique.

Dans le processus de séquençage, le « pipeline » bioinformati­

que est une série d’opérations statistiques et mathématiques successives qui acheminent et affinent progressivement les données, permettant d’extraire, à partir d’une grande quantité de données brutes, des résultats exploitables en clinique ou en recherche.

De manière schématique, le séquençage de l’ADN est réalisé à partir de fragments dont la petite taille facilite leur lecture par les capteurs de l’appareil de séquençage (reads). Des centaines de millions de ces fragments, provenant de la séquence analy­

sée, doivent être assemblés sur le modèle d’un génome humain de référence. Cette étape, nommée réalignement des bases, est cruciale et peut être comparée à la reconstitution d’un puzzle de milliards d’éléments, chose impossible manuellement en Drs TIMOTHÉE OLIVIERa, PIERRE O. CHAPPUIS b,c et PETROS TSANTOULIS a

Rev Med Suisse 2016 ; 12 : 978-81

a Service d’oncologie, Département des spécialités de médecine, b Unité d’oncogénétique et de prévention des cancers, c Service de médecine génétique, Département de médecine génétique et de laboratoire, HUG, 1211 Genève 14 timothee.olivier@hcuge.ch | pierre.chappuis@hcuge.ch

petros.tsantoulis@hcuge.ch

18_21_39208.indd 978 12.05.16 07:16

(2)

CANCER

www.revmed.ch

18 mai 2016

979

un temps limité. L’approche initiale employée par le Human genome project nécessitait la reconstruction progressive d’une carte du génome en passant par des segments de taille inter­

médiaire qui étaient manuellement séparés et ordonnés. Ce processus long et complexe a pu être supprimé par des algo­

rithmes mathématiques qui assemblent directement les courtes séquences.

Après la reconstruction de la séquence, une comparaison au génome « normal » de référence par de nouveaux algorithmes permet de déterminer la présence de variations et de décider, si possible, s’il s’agit d’une mutation somatique, propre à une tumeur, ou d’un polymorphisme naturellement présent dans la population. L’ensemble de ces étapes permet d’extraire des données interprétables (figure 1).

classification des cancers

Dans de nombreux cancers, la classification clinico­patholo­

gique a été progressivement enrichie par l’intégration de don­

nées moléculaires, comme la présence de certaines mutations prédictives de réponse au traitement, ou des altérations chro­

mosomiques ayant un impact pronostique majeur.

La classification clinico­pathologique associe des observations rigoureuses avec l’intuition du médecin qui reconnaît les en­

tités nosologiques. La classification moléculaire repose sur l’analyse de nombreux paramètres, comme le profil des muta­

tions, l’activité (expression) des gènes ou les altérations struc­

turelles des chromosomes. Ces éléments ne peuvent pas être reconnus directement par le pathologiste ou le clinicien et nécessitent un traitement bioinformatique.

A titre d’exemple, la description de six sous­types molécu­

laires de cancer du sein par Sørlie et coll. en 20017 est désor­

mais intégrée aux recommandations internationales. Les au­

teurs ont analysé, sur 85 échantillons tumoraux, les données d’expression de 8102 gènes. Un algorithme bioinformatique a permis de sélectionner 427 gènes potentiellement informatifs et, en fonction de leur profil d’expression, les échantillons ont été classés de manière hiérarchique. Cette approche de classi­

fication, nommée hierarchical clustering, permet d’identifier des groupes distincts intrinsèquement homogènes, et elle a révélé six sous­types de cancer du sein. L’exemple d’une telle classification est présenté dans les figures 2 et 3.

Ces classifications purement moléculaires ne sont pas seule­

ment descriptives, elles sont aussi corrélées au comportement clinique de la maladie. Ainsi, les sous­types moléculaires ont logiquement été intégrés aux décisions thérapeutiques en af­

finant les descriptions clinico­pathologiques traditionnelles.8 En pratique clinique, une analyse génomique n’est pas réalisée sur chaque échantillon tumoral : les éléments clinico­patholo­

giques traditionnels sont désormais utilisés comme marqueurs substitutifs (surrogate) des sous­types moléculaires intrinsè­

ques. Par exemple, un cancer du sein de type luminal A (sous­

type moléculaire intrinsèque) est indirectement identifié par la présence de récepteurs hormonaux (estrogène positif, pro­

gestérone positive et élevée), un Ki67 bas et l’absence de sur­

expression de HER2.9 Ainsi, en partant d’une analyse de mil­

liers de gènes, on obtient une classification cliniquement utile dont la simplification permet l’utilisation au quotidien.

Ces classifications continuent de s’affiner comme avec l’iden­

tification de différents sous­types moléculaires, de pronostics distincts, à l’intérieur même des cancers du sein « triple­néga­

tifs ».10 Un travail similaire se fait dans d’autres pathologies tumorales, comme les gliomes et les tumeurs de l’estomac, avec la publication régulière de nouvelles classifications inté­

fig 1 Pipeline bioinformatique

Il permet l’analyse d’une grande quantité de données provenant ici du séquençage de nouvelle génération. Le terme « variant » signifie une déviation par rapport à la séquence de référence (normale) et peut correspondre à une mutation ou à un polymorphisme avec un potentiel de pathogénicité parfois incertain.

Application clinique 100 millions

de fragments lus par l’appareil de séquençage Assembler sur

génome de référence (alignement)

1000 variants possibles Décider si

variant présent (variant calling)

5 variants pertinents (annotation)

fig 2 Dendrogramme : représentation des relations entre les échantillons

sous forme d’arborescence

Les échantillons qui se ressemblent, sur la base de l’analyse moléculaire, ont tendance à se grouper sur la même branche. La distance entre deux échantillons correspond à leur « distance moléculaire » : plus elle est grande, plus les échantillons sont différents.

Histologie : — Sous-type A ; — Sous-type B ; — Sous-type C ; — Sous-type D ;

— Sous-type E ; — Normal.

18_21_39208.indd 979 12.05.16 07:16

(3)

REVUE MÉDICALE SUISSE

WWW.REVMED.CH 18 mai 2016

980

grant des données biologiques (mutations, expression géni que, modifications épigénétiques) et cliniques.

prédiction et pronostic : « signatures moléculaires »

Identifier quel patient bénéficiera réellement d’un traitement oncologique est un défi majeur ayant conduit à la recherche de biomarqueurs pronostiques et / ou prédictifs. Le terme « si­

gnature » décrit la construction d’un modèle regroupant plu­

sieurs caractéristiques moléculaires ou clinico­pathologiques permettant idéalement de répondre à cette question.

Dans le cancer du sein, l’exemple d’une signature de 21 gènes (Oncotype DX) permet d’illustrer le processus bioinforma­

tique ayant abouti à sa découverte. Dans un premier temps, les données de la littérature ont permis aux auteurs d’identi­

fier 250 gènes candidats. La recherche de corrélations entre l’expression de ces gènes et le risque de récidive a été menée rétrospectivement à partir des données de trois essais clini­

ques. Ainsi, seize gènes reliés au cancer et cinq de référence ont été sélectionnés, puis une équation a été construite afin de calculer un score de récurrence à partir d’un échantillon tumoral.11 Cette signature a ensuite été validée comme élé­

ment pronostique,12,13 et est désormais prise en charge par l’assurance obligatoire des soins en Suisse.

Une pression importante, scientifique et commerciale, con duit à la recherche de nouvelles signatures dans tous les types de cancer. A titre d’exemple, un effort important est actuelle­

ment réalisé pour identifier des biomarqueurs prédictifs de réponse à l’immunothérapie. En raison de la complexité des processus cellulaires sous­jacents, de multiples gènes sont corrélés entre eux et avec des phénomènes biologiques essen­

tiels comme la prolifération, avec en conséquence des signa­

tures très différentes mais équivalentes en performance.

Malheureusement, à l’heure actuelle, très peu de signatures ont été validées prospectivement pour leur valeur prédictive, étape cruciale avant leur utilisation en routine.

Aide à la décision médicale (clinical decision support)

Le traitement informatique de données clinico­biologiques est déjà présent au quotidien. Les appareils d’ECG modernes pra­

tiquent une analyse presque automatique, sans aide humaine, des anomalies rythmiques fréquentes. Avec le dossier médical électronique, il paraît logique de pouvoir envisager une aide informatique plus étendue encore.

Un exemple d’application déjà utilisée est la recherche d’inter­

actions médicamenteuses, automatiquement détectées lors de la prescription informatique. En ayant accès à d’autres pa­

ramètres, comme la fonction rénale ou hépatique des patients, le logiciel de prescription peut créer des alertes ou calculer la bonne dose (exemple du calcul de la dose de carboplatine à partir de la créatininémie). Des applications d’intelligence ar­

tificielle plus sophistiquées, comme le machine learning, pour­

raient analyser l’ensemble des données du patient et apporter une aide décisionnelle au clinicien tout en réduisant le risque d’erreur.

recherche

compréhension de l’oncogenèse

Le développement des ­omics (génomique, transcriptomique, etc.) ouvre de nouveaux champs dans la compréhension de la cancérogenèse. Des projets collaboratifs comme The Cancer Genome Atlas (TCGA) ont entrepris d’analyser, avec les tech­

niques actuelles, les cellules tumorales, ainsi que les cellules normales chez les mêmes patients, dans tous les types de can­

cer. L’accès aux données, ouvert à l’ensemble de la commu­

nauté scientifique, a bouleversé les possibilités d’explorations.

Certains portails permettent cet accès d’une manière convi­

viale et relativement accessible au non­spécialiste (cBioportal,14 COSMIC15).

Aide à la recherche clinique

La multiplication des sous­types tumoraux, associée à l’appa­

rition de nombreuses substances thérapeutiques prometteuses, ont rendu le développement clinique des traitements particu­

lièrement com plexe. Les combinaisons de substances entre elles et dans les sous­types biologiques désormais identifiables génèrent de très nombreuses hypothèses à investiguer, ce qui nécessiterait théoriquement un très fort potentiel de recrute­

ment et des coûts également très importants. La bioinforma­

tique peut aider au niveau préclinique, par des modèles biolo­

giques, à filtrer les hypothèses les moins intéressantes, en évi­

tant ainsi leur développement jusqu’au niveau clinique. Il existe aujourd’hui des modèles de prévision de la structure des protéines, de la liaison entre une substance et une cible cel­

lulaire et de distribution et de toxicité d’une substance dans le corps (pénétration de la barrière hémato­encéphalique, volume de distribution, etc.).

En parallèle, la construction de registres à grande échelle faci­

literait le suivi continu à un niveau mondial des événements fig 3 Carte thermique (heatmap) :

représentation de données tridimensionnelles Sous-type A ; Sous-type B ;   Sous-type C ;   Sous-type D ;   Sous-type E ;   Normal.

Les colonnes correspondent à des échantillons de tumeurs différentes, les lignes à des gènes, et la couleur indique le niveau d’expression, faible ou élevé, de chaque gène. L’ordre des gènes choisi par l’algorithme de classification qui construit le dendrogramme à gauche met en évidence les motifs d’expression particuliers de chaque groupe qui aident à les distinguer.

18_21_39208.indd 980 12.05.16 07:16

(4)

CANCER

www.revmed.ch

18 mai 2016

981

toxiques rares, comme cela est déjà réalisé lors des études cli­

niques, et la découverte d’associations pharmacologiques dan­

gereuses. L’intégration, dans le dossier médical informatisé, des données clinico­biologiques de réponse oncologique à un traitement spécifique, serait une manière de suivre dans la vie réelle l’efficacité après le lancement d’un médicament. Ce suivi permettrait de valider d’éventuelles extensions d’indication pour des maladies « orphelines » qui ne font pas souvent l’objet d’études cliniques. Chaque interaction patient­médecin est une source d’informations que la bioinformatique est en mesure d’analyser et de transformer afin de contribuer à la médecine fondée sur les preuves.

défIs et lImItAtIons

L’évolution de la bioinformatique et son intégration dans la pratique clinique doivent s’appuyer sur des fondations éthi­

ques robustes. Il est évident que toute application doit se faire dans le respect de la volonté du patient et en accord avec les normes éthiques de notre société, qui n’est pas encore fami­

liarisée avec les aspects subtils de la biologie moléculaire, de la génomique et de l’informatique. Les progrès de la bioinfor­

matique étant récents, il est important d’envisager systémati­

quement une réflexion éthique sur les conséquences poten­

tielles, parfois inattendues, de leur application.

Les questions concernant la sécurité et la confidentialité des données médicales numériques deviennent particulièrement sensibles en raison de la facilité de la diffusion de l’information numérique et l’introduction de données très personnelles, comme les analyses génétiques constitutionnelles. Les plate­

formes informatiques doivent à la fois faciliter le partage des données et garantir leur sécurité, ce qui implique des systè­

mes complexes et des investissements très conséquents.

Enfin, l’harmonisation du langage, au niveau national ou in­

ternational, avec l’exemple des terminologies de Gene Ontology16 et Disease Ontology,17 sera une aide considérable dans l’élabo­

ration de projets collaboratifs ambitieux. De même, le traite­

ment des données, comme les étapes et paramètres précis d’un

« pipeline » bioinformatique de séquençage, doit rendre des résultats comparables au niveau national tout en respectant une certaine liberté d’optimisation dans chaque hôpital et la­

boratoire. La moindre erreur systématique de traitement bio­

informatique peut rapidement se propager et altérer les don­

nées aboutissant à de faux résultats. Chaque étape doit pouvoir bénéficier d’une procédure « qualité » permettant l’accrédita­

tion de centres d’expertise répondant à des normes élevées de reproductibilité et de précision.

conclusIon

La bioinformatique est une discipline récente associant biolo­

gie, informatique et mathématiques. Elle est intimement liée au développement des ­omics (génomique, transcriptomique, protéomique, métabolomique, etc.), permettant l’analyse du vivant à des échelles autrefois impossibles.

Les analyses bioinformatiques ont permis la reclassification de certains cancers, la construction de signatures moléculaires et la valorisation des données du séquençage de nouvelle gé­

nération. De nombreuses autres applications sont à l’étude et la bioinformatique devrait faciliter la pratique de la médecine fondée sur les preuves avec encore plus de précision.

Un support technique robuste, répondant à des normes de qualité, une collaboration multidisciplinaire et une réflexion éthique sont indispensables pour développer de façon harmo­

nieuse les projets bioinformatiques en pratique clinique et en recherche.

Conflit d’intérêts : Les auteurs n’ont déclaré aucun conflit d’intérêts en relation avec cet article.

La reclassification moléculaire de certains cancers est désormais intégrée aux recommandations thérapeutiques internationales, comme par exemple pour le cancer du sein

De nombreuses signatures moléculaires pronostiques ou prédictives sont développées et peuvent aider à la décision.

L’étape de leur validation rigoureuse en clinique est cruciale Le séquençage de nouvelle génération est intimement lié au traitement bioinformatique des données, passant par un pipeline (processus qui achemine et prépare les données)

D’autres applications bioinformatiques pourraient venir aider le praticien dans ses prises de décision au quotidien (clinical decision support)

implications pratiques

1 hesper B, hogeweg p. Bioinformatica : een werkconcept. Kameleon 1970;1:28-9.

2 hogeweg p. the roots of bioinformatics in theoretical biology. searls dB, editor.

plos comput Biol 2011;7:e1002021.

3 Watson Jd, crick fh. molecular struc- ture of nucleic acids ; a structure for deoxyribose nucleic acid. nature 1953;171:

737-8.

4 * lander es, linton lm, Birren B, et al.

Initial sequencing and analysis of the human genome. nature 2001;409:860-921.

5 Venter Jc, Adams md, myers eW, et al.

the sequence of the human genome.

science 2001;291:1304-51.

6 collins fs, hamburg mA. first fdA authorization for next-generation sequen- cer. n engl J med 2013;369:2369-71.

7 ** sørlie t, perou cm, tibshirani r, et al. Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications. proc natl Acad sci u s A 2001;98:10869-74.

8 Goldhirsch A, Wood Wc, coates As, et al. strategies for subtypes – dealing with the diversity of breast cancer : highlights of the st. Gallen International expert consensus on the primary therapy of early Breast cancer 2011. Ann oncol 2011;

22:1736-47.

9 senkus e, Kyriakides s, ohno s, et al.

primary breast cancer : esmo clinical practice Guidelines for diagnosis, treat- ment and follow-up. Ann oncol 2015;26 (suppl. 5):v8-30.

10 Burstein md, tsimelzon A, poage Gm,

et al. comprehensive genomic analysis identifies novel subtypes and targets of triple-negative breast cancer. clin cancer res 2015;21:1688-98.

11 paik s, shak s, tang G, et al. A multi- gene assay to predict recurrence of tamoxifen-treated, node-negative breast cancer. n engl J med 2004;351:2817-26.

12 ** sparano JA, Gray rJ, makower df, et al. prospective validation of a 21-gene expression assay in breast cancer. n engl J med 2015;373:2005-14.

13 Gluz o, nitz uA, christgen m, K et al.

West German study Group phase III planB trial : first prospective outcome data for the 21-gene recurrence score assay and concordance of prognostic markers by central and local pathology assessment. J

clin oncol 2016 ; epub ahead of print.

14* cBioportal for cancer genomics : www.cbioportal.org/

15* cosmIc : catalogue of somatic mu- tations in cancer : http://cancer.sanger.

ac.uk/cosmic

16 Blake JA, dolan m, drabkin h, et al.

Gene ontology annotations and resources.

nucleic Acids res 2013;41:d530-5.

17 Wu tJ, schriml lm, chen qr, et al.

Generating a focused view of disease ontology cancer terms for pan-cancer data integration and analysis. database (oxford) 2015;2015:bav032.

* à lire

** à lire absolument

18_21_39208.indd 981 12.05.16 07:16

Références

Documents relatifs

Vérification graphique : Utilisation de GeoGebra Il faut trouver la valeur du rayon du cylindre qui donne comme volume

 Pompe volumétrique : Transmission de l'énergie cinétique du moteur en mouvement de va-et-vient..  Pompe

Ils sont ensuite émis sans vitesse par la source S, puis accélérés par un champ électrostatique uniforme qui règne entre S et P tel que.. U sp

Avec cinq graduations intermédiaires au minimum, celui-ci donne 40 configurations possibles qui incluent les deux qui viennent d’être mentionnées.. Pour L variant de 24

Il faut comparer les ordonnées de deux points de même abscisse, l’un sur C f , l’autre sur (D)... En discutant suivant les valeurs du réel m, trouver graphiquement le nombre

[r]

Cas particulier des EPCI qui perçoivent la taxe en lieu et place d’un syndicat mixte Comme pour l’institution du zonage en fonction du service rendu à l’usager, les EPCI

Soit l’alignement entre les deux sequences S 1 et S 2 , calculer son score en utilisant la PSSM (position specific scoring matrix) de la table ci-dessous et de la matrice Blosum de