• Aucun résultat trouvé

en fr

N/A
N/A
Protected

Academic year: 2021

Partager "en fr "

Copied!
255
0
0

Texte intégral

(1)

HAL Id: tel-03004812

https://tel.archives-ouvertes.fr/tel-03004812

Submitted on 13 Nov 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Anne-Sophie Dirand

To cite this version:

Anne-Sophie Dirand. Développements méthodologiques pour l’utilisation de caractéristiques ra-diomiques. Imagerie médicale. Université Paris-Saclay, 2020. Français. �NNT : 2020UPAST026�. �tel-03004812�

(2)

Développements méthodologiques

pour l’utilisation de caractéristiques

radiomiques

Thèse de doctorat de l'université Paris-Saclay

École doctorale n°575 : electrical, optical, bio : physics and engineering

(EOBE)

Spécialité de doctorat : Imagerie et Physique Médicale Unité de recherche : Laboratoire d’Imagerie Translationnelle en Oncologie (LITO) U1288 Inserm/Institut Curie Référent : Faculté des sciences d’Orsay

Thèse présentée et soutenue à Orsay, le 09/10/2020, par

Anne-Sophie DIRAND

Composition du Jury

Michael SOUSSAN

PUPH, Université Paris 13 Président

Isabelle GARDIN

Physicienne, HDR, Université de Rouen Rapporteur & Examinatrice

Olivier SAUT

Directeur de recherche, CNRS, Université de Bordeaux Rapporteur & Examinateur

Vincent FROUIN

Directeur de recherche, CEA, Université Paris-Saclay Examinateur

Dr. Irène BUVAT

Directrice de recherche, CNRS, Université Paris-Saclay Directrice de thèse

Thès

e de

doctorat

NNT

:

202

0U

PA

ST

026

(3)
(4)
(5)
(6)

La coutume ´etant d’accompagner le manuscrit de th`ese de remerciements je ne d´erogerais pas `a la r`egle, d’autant plus que cela sera tr`es certainement la partie la plus lu et la plus compr´ehensible. La liste n’´etant pas exhaustive, je m’excuse d’avance pour les personnes oubli´ees ...

Je tiens tout d’abord `a remercier chaleureusement Ir`ene Buvat pour m’avoir permis d’effectuer ma th`ese au sein de son laboratoire. Merci pour ta gentillesse, ta patience et toute l’aide et les conseils apport´es au cours de ces trois ann´ees de th`ese.

Je remercie ´egalement Fanny Orlhac et Fr´ederique Frouin pour leur aide et leurs conseils.

Merci `a Christophe Nioche pour son aide informatique et toutes les fonctions de LIFEx d´evelopp´ees lorsque j’en avais besoin.

Je tiens `a remercier les personnes de l’unit´e avec qui j’ai travaill´e, pour tous les moments d’´echanges (scientifiques ou non) que nous avons pu avoir.

Je n’oublie pas les m´edecins avec qui j’ai pu collaborer au cours de cette th`ese.

Merci `a mes rapporteurs, Isabelle Gardin et Olivier Saut pour avoir accept´e d’´evaluer ce manuscrit et pour tous leurs conseils. Je n’oublie pas les examinateur Vincent Frouin et Michael Soussan que je remercie pour avoir accept´es d’ˆetre examinateurs.

Je n’oublie pas mes amis pr´esents de loin ou de pr`es au cours de ces derni`eres ann´ees.

Je remercie ´egalement ma famille pour leur soutient au cours de mes ann´ees d’´etudes.

Mes derniers remerciements, et pas des moindres, vont `a Arnaud. Merci pour tout le bonheur que tu m’apportes, pour ton soutient moral et tes encouragements.

(7)

Introduction 1 1 Limites des diagnostics actuels et pr´esentation de la radiomique et ses

applications 4

1.1 Limites de la caract´erisation des tumeurs . . . 4

1.1.1 Limites de la m´ethode de r´ef´erence actuelle : la biopsie . . . 4

1.1.2 Utilisation des images m´edicales . . . 8

1.2 Radiomique : d´efinition et m´ethodes . . . 10

1.2.1 D´efinition . . . 10

1.2.2 M´ethodes . . . 11

1.2.2.1 Images m´edicales . . . 11

1.2.2.2 Segmentation . . . 11

1.2.2.3 Caract´eristiques extraites . . . 13

1.2.2.4 Normalisation des caract´eristiques . . . 15

1.2.2.5 S´election de caract´eristiques . . . 15

1.2.2.6 M´ethodes de classification . . . 18

1.2.2.7 D´eveloppement du mod`ele . . . 21

1.2.2.8 Validation du mod`ele . . . 22

1.3 Etat de l’art du d´eveloppement de mod`ele radiomique . . . 23

1.3.1 Cohortes . . . 23

1.3.2 D´eveloppement des mod`eles . . . 26

1.3.3 Validation des mod`eles . . . 29

1.3.4 Discussion . . . 31

2 Exploration de donn´ees par analyse non supervis´ee 33 2.1 Utilisation de CC en radiomique . . . 33

2.1.1 Construction d’une CC . . . 33

2.1.2 Utilisation des CC en radiomique . . . 36

2.1.3 ´Etat de l’art de l’usage des CC en radiomique TEP . . . 40

2.1.3.1 Cancer du sein . . . 40

2.1.3.2 Cancer du poumon . . . 44

2.2 ´Etude du potentiel et des limites de l’exploration des donn´ees au moyen de cartes de chaleur . . . 44

(8)

2.2.1 M´ethode . . . 44 2.2.1.1 Cohortes . . . 44 2.2.1.2 ´Etude des CC . . . 46 2.2.2 R´esultats . . . 47 2.2.2.1 Cancers du sein . . . 47 2.2.2.2 L´esions pulmonaires . . . 55 2.2.3 Discussion . . . 57 2.3 Conclusion . . . 59

3 Exploration d’approches de jumeaux radiomiques et de dictionnaires radiomiques 60 3.1 M´ethode . . . 60 3.2 R´esultats . . . 64 3.2.1 Cancer du sein . . . 64 3.2.2 Cancer du poumon . . . 69 3.3 Discussion . . . 72

4 ´Etude comparative de la validation crois´ee et de la s´eparation des donn´ees en 2 ensembles pour d´evelopper des mod`eles 74 4.1 Mat´eriel et m´ethode . . . 75

4.1.1 Patients et images . . . 75

4.1.2 M´ethodes de classification utilis´ees . . . 75

4.1.3 Effectifs des patients pour chaque configuration . . . 76

4.1.4 D´eveloppement des mod`eles . . . 77

4.1.5 Evaluation . . . 78

4.2 R´esultats . . . 79

4.2.1 Comparaison intra-technique - mod`eles . . . 79

4.2.2 Comparaison intra-technique - performances . . . 84

4.2.3 Comparaison inter-technique VS . . . 87

4.2.4 Comparaison inter-technique TES . . . 88

4.3 Discussion . . . 89

5 D´etermination du pouvoir pr´edictif des caract´eristiques radiomiques 92 5.1 ´Evolution des performances des mod`eles en fonction des effectifs . . . 92

5.1.1 Mat´eriel et m´ethode . . . 92 5.1.2 R´esultats . . . 94 5.1.2.1 Analyse univari´ee . . . 94 5.1.2.2 Analyse multivari´ee . . . 98 5.1.3 Discussion . . . 102 5.2 M´ethode de d´ecimation . . . 104 5.2.1 Mat´eriel et m´ethode . . . 104

5.2.1.1 Pr´ediction des performances - analyse univari´ee . . . 104

5.2.1.2 Pr´ediction des performances - analyse multivari´ee . . . . 105

(9)

5.2.1.4 Cas d’´etude . . . 107 5.2.2 R´esultats . . . 108 5.2.2.1 Analyse univari´ee . . . 108 5.2.2.2 Analyse multivari´ee . . . 108 5.2.2.3 Cas d’´etude . . . 113 5.2.3 Discussion . . . 114

5.3 D´etermination de la m´ethode de classification optimale . . . 114

5.3.1 Mat´eriel et m´ethode . . . 115

5.3.2 R´esultats . . . 115

5.3.3 Discussion . . . 117

5.4 Conclusion . . . 118

6 Analyse de texture locale 119 6.1 Donn´ees utilis´ees . . . 120

6.1.1 Cohorte . . . 120

6.1.2 Analyse de texture de r´ef´erence . . . 120

6.1.3 Analyse de texture r´egionale dans LIFEx . . . 122

6.1.4 Caract´eristiques de texture locale . . . 122

6.2 D´eveloppement de la m´ethode et ´evaluation . . . 123

6.2.1 Mod`eles locaux directs qui classent voxel par voxel . . . 124

6.2.2 Mod`ele local qui classe voxel par voxel et prend en compte le voisinage . . . 125

6.2.3 Local : Mod`ele ACP et distance euclidienne . . . 126

6.2.4 Mod`eles r´egionaux qui classent patient par patient . . . 127

6.2.5 Comparaison des diff´erentes m´ethodes . . . 127

6.3 R´esultats . . . 128

6.3.1 Mod`eles locaux qui classent voxel par voxel . . . 128

6.3.2 Mod`ele local qui classe voxel par voxel et prend en compte le voisinage . . . 129

6.3.3 Mod`ele ACP et distance euclidienne . . . 130

6.3.4 Mod`eles globaux qui classent patient par patient . . . 131

6.3.5 Comparaison des diff´erentes m´ethodes . . . 132

6.4 Discussion . . . 132

7 Applications 135 7.1 Endocardites . . . 135

7.1.1 Pr´ediction du statut du patient . . . 137

7.1.1.1 Mat´eriel et m´ethode . . . 137

7.1.1.1.1 Cohorte . . . 137

7.1.1.1.2 M´ethodes d’analyse . . . 137

7.1.1.2 R´esultats . . . 138

7.1.1.3 Discussion . . . 140

7.1.2 Impact des param`etres d’extraction des caract´eristiques radiomiques141 7.1.2.1 Mat´eriel et m´ethode . . . 141

(10)

7.1.2.1.1 Cohorte . . . 141 7.1.2.1.2 M´ethodes d’analyse . . . 141 7.1.2.2 R´esultats . . . 141 7.1.2.3 Discussion . . . 144 7.1.3 Conclusion . . . 144 7.2 Cancer du poumon . . . 144 7.2.1 Impact de la standardisation . . . 144 7.2.1.1 Mat´eriel et m´ethode . . . 145 7.2.1.1.1 Cohorte . . . 145 7.2.1.1.2 M´ethodes d’analyse . . . 146 7.2.1.2 R´esultats . . . 146 7.2.1.3 Discussion . . . 147

7.2.2 Classification des tumeurs . . . 149

7.2.2.1 Mat´eriel et m´ethode . . . 149 7.2.2.1.1 Cohorte . . . 149 7.2.2.1.2 M´ethodes d’analyse . . . 149 7.2.2.2 R´esultats . . . 149 7.2.2.3 Discussion . . . 153 7.2.3 Conclusion . . . 155

7.3 R´eponse au traitement des tumeurs triple n´egatives du sein . . . 156

7.3.1 Mat´eriel et m´ethode . . . 156 7.3.1.1 Cohorte . . . 156 7.3.1.2 Analyse r´egionale . . . 156 7.3.1.3 Analyse locale . . . 157 7.3.2 R´esultats . . . 157 7.3.3 Discussion . . . 160 Conclusion et perspectives 163

Annexe 1 : Liste des caract´eristiques extraites avec LIFEx 179

Annexe 2 : Liste des publications pour l’´etat de l’art de la radiomique 186

Annexe 3 : R´esultats du chapitre 4 sur la cohorte 2 201

Annexe 4 : Article publi´e dans Scientific Reports 210

Annexe 5 : R´esultats des analyses ROC pour les donn´ees al´eatoires

(cohorte de cancer du poumon) 238

Annexe 6 : Liste des abr´eviations 240

(11)

L’augmentation de la quantit´e de donn´ees diverses acquises pour chaque patient au cours des derni`eres d´ecennies a entrain´e une r´eflexion sur l’utilisation de celles-ci et notamment sur la possibilit´e d’en tirer davantage d’informations.

Actuellement, dans le domaine de l’imagerie m´edicale en oncologie, des examens sont effectu´es avant tout traitement pour obtenir des informations sur la localisation de la tumeur, sa forme, sa diss´emination, ..., mais ils ne sont pas utilis´es pour d´efinir les caract´eristiques biologiques de la tumeur. Ces derni`eres proviennent des r´esultats de la biopsie qui est un acte invasif consistant `a pr´elever des ´echantillons de la tumeur pour ensuite les analyser en ´etudiant les cellules de celle-ci pour d´eterminer le type de l´esion, son agressivit´e et certaines de ses caract´eristiques permettant de guider la prise en charge th´erapeutique. Une analyse g´enomique de la biopsie est r´ealis´ee dans certains cas et peut compl´eter les informations n´ecessaires pour orienter le traitement, en fonction des mutations pr´esentes dans l’ADN de la tumeur. N´eanmoins, la biopsie ne concerne qu’une petite zone de la tumeur alors que les images permettent de visualiser tout le volume tumoral.

Ainsi, des chercheurs se sont int´eress´es `a la possibilit´e d’identifier des variables quantitatives `a partir des images afin de d´eterminer si ces variables peuvent ˆetre reli´ees aux informations obtenues avec la biopsie et si elles peuvent fournir des informations suppl´ementaires pour les m´edecins. Ce domaine de recherche, appel´e la radiomique, est en expansion depuis 2012. Bien qu’il progresse, il n’existe pas `a ce jour de mod`ele bas´e sur des caract´eristiques radiomiques ´etant assez fiable et robuste pour ˆetre utilis´es en routine clinique dans un ou plusieurs centres. Cela peut s’expliquer par les nombreux obstacles associ´es `a cette discipline. Par exemple, la faible taille des cohortes souvent utilis´ees ne permet pas de d´evelopper des mod`eles repr´esentatifs de pathologies aussi complexes que celles des cancers. M´elanger des donn´ees provenant de diff´erents hˆopitaux, lorsque cela est possible, peut ˆetre une solution mais n´ecessite de g´erer la variabilit´e induite par l’usage de diff´erents imageurs. Il est donc fr´equent de travailler avec des cohortes de faibles effectifs (moins de 100 patients).

Une des premi`eres questions `a laquelle il faut r´epondre est la pr´esence d’information pertinente pour la tˆache de classification concern´ee dans les donn´ees `a disposition. En effet, lorsque les mod`eles pr´esentent des performances m´ediocres, il est g´en´eralement difficile de savoir si c’est faute de donn´ees suffisantes, ou parce que les donn´ees ne

(12)

contiennent pas suffisamment d’informations. Il est important de d´eterminer dans quelle situation nous sommes pour compl´eter les donn´ees soit en augmentant le nombre de sujets, soit en recueillant d’autres types d’informations.

Ensuite, lorsqu’il y a de l’information dans les donn´ees, il n’est pas toujours possible d’augmenter l’effectif de la cohorte (donn´ees non disponibles, cancers rares). Ainsi, il semble n´ecessaire de d´evelopper des m´ethodes qui peuvent ˆetre utilis´ees avec de petites cohortes.

L’objectif de ce travail de th`ese a ´et´e de d´evelopper et d’´evaluer des m´ethodes pour r´epondre `a ces 2 probl´ematiques.

Le premier chapitre de ce manuscrit montre les limites de la m´ethode de r´ef´erence actuelle utilis´ee par les m´edecins pour caract´eriser les tumeurs et choisir une strat´egie th´erapeutique. Puis, les biomarqueurs issus de l’imagerie sont pr´esent´es. Ensuite, la radiomique et le d´eveloppement de mod`ele dans ce contexte sont d´etaill´es. Enfin l’´etat de l’art des publications r´ecentes visant `a d´evelopper des mod`eles radiomique est pr´esent´e.

Le deuxi`eme chapitre pr´esente les r´esultats de l’exploitation de cartes de chaleur pour d´etecter la pr´esence d’information dans les donn´ees. Les ´etapes de la construction de ces cartes sont expliqu´ees, puis leur utilisation en radiomique dans le contexte de cancers du sein et du poumon est pr´esent´ee. Enfin les cartes de chaleur sont utilis´ees pour explorer le contenu de 2 cohortes (cancers du sein et du poumon).

Le troisi`eme chapitre d´ecrit la m´ethode d´evelopp´ee et bas´ee sur les cartes de chaleur pour pr´edire l’appartenance des patients `a un groupe. Les r´esultats obtenus sont pr´esent´es puis compar´es `a une approche de jumeau num´erique.

Les conclusions concernant la capacit´e de pr´edire l’appartenance des patients `a un groupe grˆace `a l’analyse des cartes de chaleur nous a conduit `a consid´erer des m´ethodes d’apprentissage automatique. Nous ´etudions dans le chapitre 4 la technique `a favoriser pour d´evelopper des mod`eles pour les effectifs de cohortes rencontr´es en radiomique.

En s’appuyant sur les conclusions ´etablies pr´ec´edemment, le chapitre 5 pr´esente l’´etude des performances obtenues par analyses ROC univari´ees et pour diff´erentes m´ethodes de classification en fonction des effectifs utilis´es. Les tendances observ´ees sont utilis´ees afin de d´evelopper une m´ethode pour d´eterminer les performances de classification qui peuvent ˆetre atteintes lorsque la cohorte est de taille suffisante, `a partir d’un faible effectif.

Le sixi`eme chapitre propose une m´ethode permettant d’utiliser de faibles effectifs pour d´evelopper un mod`ele. Celle-ci utilise des valeurs de caract´eristiques extraites des voxels des volumes tumoraux dans les images m´edicales. Les r´esultats de cette m´ethode

(13)

sont compar´es `a ceux des caract´eristiques radiomiques usuelles, d´ecrivant la tumeur dans sa globalit´e.

Enfin, les r´esultats obtenus au moyen des m´ethodes d´evelopp´ees durant nos travaux, pour 3 cohortes de patients, sont expos´es.

En conclusion, nous faisons le bilan des r´esultats obtenus et d´egageons les perspectives ouvertes par ces travaux de th`ese.

(14)

Limites des diagnostics actuels et

pr´esentation de la radiomique et

ses applications

1.1 Limites de la caract´erisation des tumeurs . . . 4

1.1.1 Limites de la m´ethode de r´ef´erence actuelle : la biopsie . . . 4

1.1.2 Utilisation des images m´edicales . . . 8

1.2 Radiomique : d´efinition et m´ethodes . . . 10

1.2.1 D´efinition . . . 10

1.2.2 M´ethodes . . . 11

1.3 Etat de l’art du d´eveloppement de mod`ele radiomique . . . 23

1.3.1 Cohortes . . . 23

1.3.2 D´eveloppement des mod`eles . . . 26

1.3.3 Validation des mod`eles . . . 29

1.3.4 Discussion . . . 31 Dans ce chapitre, nous exposons les limites de la biopsie dans la prise en charge des patients atteints de cancer et l’int´erˆet des images m´edicales. La radiomique est pr´esent´ee, puis nous pr´esentons les principes de d´eveloppement de mod`eles radiomiques et les probl`emes associ´es.

1.1 Limites de la caract´erisation des tumeurs

1.1.1 Limites de la m´ethode de r´ef´erence actuelle : la biopsie

La m´ethode de r´ef´erence actuelle en canc´erologie pour caract´eriser une tumeur est la biopsie. Celle-ci est r´ealis´ee avant de commencer le traitement pour d´eterminer les particularit´es de la l´esion et aider au choix du traitement. Un examen

(15)

anatomopathologique est ensuite effectu´e sur les ´echantillons de tumeur pr´elev´es. Cet examen consiste `a analyser au microscope les cellules de l’´echantillon pour d´eterminer le type de cancer, jusqu’o`u les cellules se sont d´evelopp´ees (stade), leur agressivit´e (le grade) et leurs caract´eristiques. Dans nos ´etudes, nous avons utilis´es certaines informations issues de la biopsie comme le type de l´esion ou encore certaines caract´eristiques des cellules. Ces caract´eristiques sont les suivantes dans le cas de cancers du sein :

— les marqueurs tumoraux (ACE et CA 15.3) : positifs ou n´egatifs selon qu’ils sont sup´erieurs aux seuils (50 ng/mL pour CA 15.3 et 10 ng/mL pour ACE) ou non — le KI-67 : c’est un antig`ene marqueur de la prolif´eration cellulaire. Il est consid´er´e

faible si <30 % et ´elev´e si >30%

— le grade : bas´e sur la classification de l’American Joint Committee on Cancer — la pr´esence/absence de r´ecepteurs hormonaux (œstrog`ene et progest´erone) qui est

utile `a connaˆıtre pour choisir le traitement

— le sous-type mol´eculaire : HER2, luminal A, luminal B HER2 n´egatif/positif et basal-like. Le tableau 1.1 r´ecapitule les caract´eristiques de ces diff´erents sous-types — le score TNM : bas´e sur la classification Elston-Ellis (I, II ou III)

— la pr´esence/absence de n´ecrose

— si la tumeur est un carcinome in situ (CIS) ou non. Un CIS est limit´e `a l’´epith´elium et n’a pas encore atteint les cellules basales

— la pr´esence/absence de stroma inflammatoire : le stroma correspond aux cellules non tumorales au sein d’une tumeur. Cela peut ˆetre des tissus conjonctifs, des vaisseaux, des leucocytes et la matrice extra-cellulaire sous la d´ependance du tissu tumoral. Ce type de cellules peut subir les mˆemes r´eactions que du tissu sain, notamment des r´eactions inflammatoires lors d’irradiation par exemple

Sous-type

Récepteurs d'oestrogène et

progestérone

HER2 KI67 Grade

Luminal A Présence Non exprimé Negatif I/II Luminal B HER2- Présence Non exprimé Positif II/III Luminal B HER2+ Présence Exprimé Positif II/III

HER2 Absence Exprimé II/III

Basal-like Absence Non exprimé Positif III

Tableau 1.1 – R´ecapitulatif des caract´eristiques de sous-types mol´eculaires de cancer du sein issu de l’article [Dai et al., 2015].

Grˆace `a l’essor de la g´enomique ces derni`eres d´ecennies, l’´etude du g´enome de la biopsie est ´egalement possible en s´equencant l’ADN et l’ARN des cellules tumorales. La croissance et la propagation de la tumeur ´etant li´ees `a l’accumulation d’erreurs, d’anomalies ou d’alt´erations mol´eculaires dans l’ADN, l’´etude de celui-ci permet d’identifier ces erreurs et lorsque cela est possible, de proposer une th´erapie cibl´ee.

(16)

Cependant, les informations extraites de la biopsie ne concernent que la r´egion o`u la biopsie est effectu´ee et ceci pose la question de la repr´esentativit´e de l’´echantillon de la tumeur pr´elev´e. Ainsi, [Gerlinger et al., 2012] ont test´e si l’analyse d’un unique ´echantillon de biopsie permettait de d´etecter des alt´erations g´en´etiques d’une tumeur. Il ressort de cette ´etude que 63 `a 69% des mutations n’ont pas ´et´e identifi´ees. En fonction de l’endroit o`u l’´echantillon de la tumeur est pr´elev´e, la conclusion sur la charge mutationnelle d’une l´esion ne sera pas la mˆeme comme l’illustre la figure 1.1 et elle ne sera donc pas caract´eris´ee correctement. Cette ´equipe n’est pas la seule `a obtenir les mˆemes conclusions, [Bettoni et al., 2017] se sont int´eress´es `a l’´etude d’un cas d’ad´enocarcinome rectal et montrent qu’en ´etudiant 3 fragments de s´equen¸cage, parmi les 193 mutations ponctuelles identifi´ees, seules 53 (27%) sont pr´esentes dans les 3 fragments et environ 115 (59%) mutations ne sont pr´esentes que dans un seul des fragments. [Zhang et al., 2013] concluent la mˆeme chose en ´etudiant 3 r´egions diff´erentes d’un carcinome ´epidermo¨ıde oropharyng´e.

Figure 1.1 – Illustration de l’h´et´erog´en´eit´e tumorale par [Gerlinger et al., 2012] pour une tumeur r´enale. Le grade (G) de chaque r´egion (R) est pr´ecis´e. Reproduit avec la

permission de [Gerlinger et al., 2012], Copyright Massachusetts Medical Society. En plus de cette limitation spatiale, s’ajoute la limitation temporelle de la biopsie. En effet, celle-ci est effectu´ee avant le traitement mais n’est g´en´eralement pas r´ep´et´ee pendant le traitement du fait de son caract`ere invasif. Or, il a ´et´e montr´e que les caract´eristiques biologiques des l´esions peuvent changer au cours du temps en r´eponse aux traitements comme l’illustre la figure 1.2. [Sequist et al., 2011] ont ´etudi´e des tumeurs du poumon pr´esentant des mutations des r´ecepteurs de facteur de croissance ´epidermique (epidermal growth factor receptor en anglais EGFR). Dans leur cohorte, les patients recevaient un traitement inhibiteur des tyrosine kinases EGFR. Les auteurs ont ´etudi´e les patients qui ont r´ecidiv´e malgr´e une r´eponse transitoire. Ces patients ont

(17)

´et´e biopsi´es au moment o`u ils ont d´evelopp´e une r´esistance au m´edicament, permettant ainsi la comparaison avec la biopsie initiale. Il ressort de cette ´etude que 15 des 37 patients ´etudi´es ont d´evelopp´e des mutations g´en´etiques qui sont `a l’origine de la r´esistance au traitement. Les auteurs rapportent ´egalement que 14% des l´esions ont chang´e d’un point de vue ph´enotypique, passant d’un ad´enocarcinome `a une tumeur du poumon `a petites cellules. Le traitement pour chacune de ces pathologies n’´etant pas le mˆeme, il est important de d´etecter ce type de changement afin d’ajuster le traitement et d’´eviter le d´eveloppement d’une r´esistance.

Figure 1.2 – Illustration de la modification des propri´et´es d’une tumeur au cours d’un traitement. Les images de la premi`ere ligne repr´esentent le mˆeme pr´el`evement marqu´e `a l’h´ematoxyline et l’´eosine (gauche) et `a la synaptophysine (droite) avant le d´ebut du

traitement et celles de la deuxi`eme ligne repr´esentent un pr´elevement marqu´e `a l’h´ematoxyline et l’´eosine (gauche) et `a la synaptophysine (droite) pour le mˆeme patient apr`es qu’il ait d´evelopp´e une r´esistance au traitement. Images provenant de

l’article [Sequist et al., 2011].

En outre, la biopsie ne renseigne parfois pas assez sur la l´esion. Ainsi, il est possible que deux patients pr´esentant les mˆemes caract´eristiques de l´esion sur une biopsie ne r´eagissent pas de la mˆeme mani`ere au mˆeme traitement. Par exemple, dans le cas des tumeurs triple n´egatives du sein, seul 47.4% des tumeurs r´epondent `a la chimioth´erapie n´eo-adjuvante [Bagegni et al., 2019]. Cette diff´erence de r´eponse n’est pas expliqu´ee mais reste un probl`eme pour les oncologues.

Enfin, la biopsie n’est parfois pas r´ealisable. En effet c’est un acte chirurgical invasif n´ecessitant une anesth´esie au moins locale et celle-ci est parfois contre-indiqu´ee. La contre-indication concerne aussi les patients sous traitement anti-coagulant ou ayant

(18)

des probl`emes de coagulation ([Apestegu´ıa and Pina, 2011], [Kim and Shin, 2017], [Bandari et al., 2016], [Rockey et al., 2009] et [Cheng et al., 2019]) ou encore des probl`emes d’hypertension [Bandari et al., 2016]. Dans le cas d’une biopsie r´enale, le patient doit ´egalement avoir 2 reins. Lorsque la localisation concern´ee est l’abdomen [Kim and Shin, 2017], il n’est parfois pas possible de trouver un chemin sans risque pour l’aiguille. Lorsque les bronches sont `a cibler [Cheng et al., 2019], il ne faut pas que le patient soit `a haut risque de d´ecompensation pulmonaire ou cardiaque. De plus, les patients doivent ˆetre coop´eratifs et ne pas faire de mouvements brusques.

1.1.2 Utilisation des images m´edicales

Un biomarqueur est une caract´eristique d´efinie qui est mesur´ee en tant qu’indicateur d’un proc´ed´e biologique normal, d’un proc´ed´e pathog`ene ou de r´eponses `a une exposition ou une intervention, y compris une intervention th´erapeutique ([Group, 2001] et [FDA-NIH Biomarker Working Group, 2016]). La d´efinition actuelle du groupe de travail sur les biomarqueurs de la FDA-NIH sp´ecifie que les caract´eristiques physiologiques, mol´eculaires, histologiques et radiographiques peuvent

ˆetre des biomarqueurs [FDA-NIH Biomarker Working Group, 2016]. Les

caract´eristiques extraites d’images m´edicales sont donc consid´er´ees comme des biomarqueurs. Actuellement, des biomarqueurs issus d’images m´edicales sont utilis´es en m´edecine et plus particuli`erement en oncologie ([Institute of Medicine, 2012]).

L’American College of Radiology Breast Imaging-Reporting and Data System (ACR BI-RADS) est un score compris entre 0 et 5 qui classe les examens radiologiques mammaires afin de d´efinir les anomalies ´eventuelles d´etect´ees sur ces images et standardiser le d´epistage organis´e dans le cadre du cancer du sein. A ce score est associ´e un risque de pr´esence de cancer pour que les cliniciens d´eterminent s’il faut proc´eder `a d’autres examens compl´ementaires afin de conclure `a la pr´esence d’une tumeur maligne ou non. Un des autres biomarqueurs pour le d´epistage de cancer est la valeur de fixation normalis´ee (Standardized Uptake Value en anglais, SUV) qui est d´efinie dans l’´equation 1.1.

SUV = dose inject´ee pr´esente au moment de l’examen [kBq]concentration d’activit´e [kBq/mL]

massedupatient[g]

(1.1) Une valeur qui s’´ecarte de 1 g/mL indique une hyperfixation (ou une hypofixation) et ce biomarqueur est utilis´e pour d´etecter les l´esions dans l’organisme qui fixent (ou non) le traceur inject´e. Dans le cas du 2-desoxy-2-18F-fluoro-D-glucose (18F-FDG), le

m´edecin nucl´eaire peut visualiser le m´etabolisme glucidique des tissus et donc d´etecter les tumeurs, pour lesquelles celui-ci est tr`es actif.

Suite au diagnostic d’une tumeur, d’autres biomarqueurs sont utilis´es pour apporter des informations et aider `a la prise de d´ecision. Le stade TNM diagnostique le stade d’un cancer en d´ecrivant la charge de morbidit´e. Pour cela, il prend en compte la pr´esence, la taille et le nombre de l´esions en fonction de leur type (tumeur, nodules ou

(19)

m´etastases). Les techniques d’imageries utilis´ees sont diverses : TDM, IRM, TEP/TDM, ´echographies et radiographies.

Certains biomarqueurs peuvent aussi aider au ciblage pour la chirurgie, comme c’est le cas lors du bilan d’extension ganglionnaire par TEP/TDM dans le cas de cancers du sein qui d´etermine s’il est n´ecessaire d’avoir recours `a l’ex´er`ese de ganglions ou non ([Adler et al., 1997], [Crippa et al., 1998], [Hubner et al., 2000] et [Utech et al., 1996]). Toujours en utilisant la m´edecine nucl´eaire, la scintigraphie `a l’131I sert `a identifier des

l´esions canc´ereuses locales et distantes pour les patients atteints d’un cancer de la thyro¨ıde [Avram, 2012]. Des analogues de r´ecepteurs `a la somatostatin radio-marqu´es sont utilis´es en TEMP (111In-pentetreotide octreotide [Kam et al., 2012]) et en

TEP/TDM (68Ga-dotatate [Ambrosini et al., 2014]) pour identifier les sites de

pr´esence des tumeurs neuro-endocrines. Ces 2 derniers biomarqueurs sont bas´es sur le

SU Vmax dans la l´esion cible.

L’efficacit´e th´erapeutique d’un traitement ou sa toxicit´e peuvent ´egalement ˆetre ´evalu´ees `a l’aide de biomarqueurs provenant d’images m´edicales. Le crit`ere d’´evaluation de la response tumorale (Response evaluation criteria in solid tumors en anglais, RECIST [Eisenhauer et al., 2009]) consiste `a mesurer les l´esions sur les images TDM ou IRM. Une liste des l´esions (primitives ou secondaires) avant le d´ebut du traitement est dress´ee. Au maximum 5 l´esions (dont 2 maximum par organe) sont mesur´ees et le diam`etre le plus grand de chacune de ces l´esions est mesur´e. La variation des diam`etres des l´esions est suivie sur les examens suivants afin d’´evaluer leur r´eponse au traitement. Le crit`ere PERCIST [Wahl et al., 2009] concerne lui l’imagerie TEP et s’appuie sur la variation du SUV de la l´esion qui a la plus grosse concentration de FDG pour d´eterminer si la tumeur r´epond ou non au traitement. Cette diff´erence de SUVmax peut

par exemple renseigner sur la r´eponse de la tumeur au traitement.

Malgr´e l’utilisation r´epandue de certains biomarqueurs, peu sont utilis´es alors qu’il y en a beaucoup d’autres qui semblent prometteurs, mˆeme s’ils ne d´epassent pas encore le champ de la litt´erature acad´emique. Ceci peut s’expliquer par le fait que pour qu’un biomarqueur puisse ˆetre impl´ement´e en clinique, il doit faire l’objet d’´etudes pour montrer son efficacit´e, sa robustesse et son utilit´e. Il doit par exemple ˆetre mesurable dans diff´erents centres de mani`ere r´ep´etable et reproductible. Or, en imagerie TEP certains traceurs ne sont par exemple pas disponibles partout. De plus, il faut prendre en compte le biais qu’il peut y avoir entre la valeur mesur´ee et sa vraie valeur, bien que dans certains cas ce biais puisse ˆetre estim´e en faisant des comparaisons avec des fantˆomes de r´ef´erence. Il faut ensuite prouver que le biomarqueur consid´er´e refl`ete des ph´enom`enes biologiques.

Une revue [O’Connor et al., 2017] rapporte qu’entre 2004–2014, environ 10,000 ´etudes ont fait ´etat de biomarqueurs (nouveaux ou d´ej`a existants) provenant de diff´erentes modalit´es d’imagerie. Certains d’entre eux viennent d’une approche d’analyse novatrice appel´ee radiomique.

(20)

1.2 Radiomique : d´efinition et m´ethodes

1.2.1 D´efinition

La radiomique a connu un essor consid´erable au cours de cette d´ecennie. Bien que le concept existe depuis 1983, le terme n’a ´et´e introduit qu’en 2010 et sa repr´esentation dans l’espace scientifique a tr`es vite augment´e comme le montre la figure 1.3 qui repr´esente le nombre d’articles publi´es dans ce domaine au cours des derni`eres ann´ees pour la recherche (”radiomic” OR ”radiomics”) AND (”signature” OR ”model”).

0 100 200 300 400 500 600 700 800 900 1000 2012 2013 2014 2015 2016 2017 2018 2019 N o m b re d e p u b lic at ion s Année

Figure 1.3 – ´Evolution du nombre d’articles radiomique depuis 2012 d’apr`es PubMed pour la recherche (”radiomic” OR ”radiomics”) AND (”signature” OR ”model”).

Le nom radiomique vient l’analogie avec les autres -omiques qui sont bas´es sur l’utilisation de donn´ees de natures diff´erentes comme la g´enomique qui utilise des donn´ees venant du g´enome ou la prot´eomique qui utilise des donn´ees venant des prot´eines. La radiomique est bas´ee sur l’utilisation d’images m´edicales num´eris´ees. Ces donn´ees sont de grande dimension, c’est pourquoi leur utilisation peut s’appuyer sur l’intelligence artificielle (IA). Dans ce cas, 2 grandes m´ethodes d’apprentissage automatique (AA) sont utilis´ees : une d’elle est bas´ee sur des caract´eristiques calcul´ees manuellement par un op´erateur au moyen d’expressions math´ematiques et l’autre est bas´ee sur des caract´eristiques apprises par la machine, appel´ee apprentissage profond (AP), deep learning en anglais. Dans nos travaux, nous n’utilisons que la premi`ere, qui utilise des caract´eristiques qui son pr´ealablement extraites manuellement des images. Ce concept a ´et´e pr´esent´e par une ´equipe en 2010 [Gillies et al., 2010] et se base sur l’hypoth`ese que les images contiennent des informations suppl´ementaires `a celles

classiquement extraites des images. Pour extraire ces informations,

[Lambin et al., 2012] d´ecrit le pr´ec´ed´e `a suivre lorsque l’on utilise une m´ethode d’IA non profonde. Ce proc´ed´e consiste `a calculer pour chaque l´esion plus de 200 index li´es `a la distribution d’intensit´e du signal, `a la forme de la l´esion et `a sa texture. Un

(21)

sous-ensemble de ces caract´eristiques li´ees `a la r´eponse aux traitements ou aux caract´eristiques g´en´etiques des tumeurs est ensuite g´en´eralement s´electionn´e, pour d´eterminer l’apport de ces caract´eristiques par rapport aux donn´ees utilis´ees en clinique.

Le postulat de base de la radiomique est que les signaux mesur´es dans les images m´edicales peuvent ˆetre l’expression macroscopique de caract´eristiques biologiques des l´esions. Ainsi, il serait possible de relier les informations contenues dans les images `a certaines informations visibles sur la biopsie, ce qui permettrait de s’en affranchir lorsque celle-ci est compliqu´ee ou impossible `a faire.

1.2.2 M´ethodes

Le processus d’analyse radiomique par des approches non profondes d´ecrit dans cette partie est r´ecapitul´e figure 1.4.

1.2.2.1 Images m´edicales

Pour effectuer une analyse radiomique, il faut disposer d’une cohorte de patients auxquels sont associ´es des images m´edicales. Ces images m´edicales peuvent provenir de n’importe quelle modalit´e d’imagerie.

1.2.2.2 Segmentation

La l´esion est d´elimit´ee sur l’image. Cette ´etape est encore majoritairement manuelle (effectu´ee par un m´edecin). N´eanmoins, le contourage manuel est `a proscrire puisqu’en fonction de la personne qui le r´ealise, les r´esultats de la segmentation seront diff´erents, ce qui introduit une variabilit´e dans les valeurs de caract´eristiques ensuite extraites. Ceci est connu et montr´e par diff´erentes publications ([Vorwerk et al., 2009], [Hatt et al., 2009], [Velazquez et al., 2013], [Parmar et al., 2014] et [Yip et al., 2014]). Par exemple dans [Vorwerk et al., 2009] 19 m´edecins ont segment´e 2 volumes (V1 et V2) `a irradier de 3 patients ayant un cancer du poumon non `a petites cellules. Il en ressort qu’il y a une grande variabilit´e inter-observateur pour les 2 volumes puisque par exemple, pour V1, il y a un consensus pour les pixels compris dans le contourage d’au moins 70% pour seulement 12.4 ± 4.3 % des volumes.

(22)

Développement du modèle Acquisition des images Normalisation Segmentation Extraction des paramètres Normalisation Filtrage Développement du modèle Méthode de classification Validation interne Validation externe du modèle Calcul Acquisition des images Normalisation Segmentation Extraction des paramètres Validation externe du modèle

a)

b)

c)

Méthode de classification Validation interne Normalisation Calcul Acquisition des images Normalisation Segmentation Extraction des paramètres Développement du modèle Validation externe du modèle Méthode de classification intégrée Validation interne Normalisation Calcul Sélection “wrapper”

Figure 1.4 – Processus pour le d´eveloppement de mod`ele radiomique par : (a) apprentissage non profond avec s´election de variables par approche filtrage (b) apprentissage non profond avec s´election de variables par approche ”wrapper”

(c) apprentissage non profond avec s´election de variables par approche int´egr´ee L’utilisation de m´ethodes de segmentation semi-automatiques est en expansion pour palier `a ces inconv´enients, notamment celles bas´ees sur un seuil d’intensit´e fix´e qui sont populaires pour l’imagerie fonctionnelle. Toutefois, il n’existe pas de seuil optimal

(23)

puisque pour une mˆeme acquisition, diff´erentes m´ethodes de reconstruction d’images TEP conduisent `a la d´etermination de seuils diff´erents. L’article [Daisne et al., 2003] le montre dans le cas de la segmentation de sph`eres radioactives dans un fantˆome. Il est rapport´e qu’il n’y a pas de consensus sur le seuil `a appliquer pour segmenter correctement les sph`eres car celui-ci d´epend du protocole de reconstruction utilis´e. Les m´ethodes automatiques sont plus rarement utilis´ees mais certaines permettent d’effectuer la segmentation de mani`ere assez pr´ecise. Par exemple, la m´ethode propos´ee par [Saad et al., 2019] pour segmenter des cancers du poumon non `a petites cellules est robuste par rapport `a la taille de la tumeur, sa forme, la segmentation, la localisation et permet d’obtenir de bonnes performances lorsqu’elle est compar´ee au contourage manuel avec une sensibilit´e, sp´ecificit´e et pr´ecision respectives de 80–98%, 85–99%, et 84–99%. La sensibilit´e (´equation 1.2) est la capacit´e d’un test `a donner un r´esultat positif lorsqu’une hypoth`ese est v´erifi´ee, la sp´ecificit´e (´equation 1.3) est la capacit´e d’un test `a donner un r´esultat n´egatif lorsqu’une hypoth`ese n’est pas v´erifi´ee et la pr´ecision est la proportion d’identifications positives qui sont correctes (´equation 1.4).

Sensibilit´e = vrais positifs

vrais positifs + faux n´egatifs (1.2)

Sp´ecificit´e = vrais n´egatifs

vrais n´egatifs + faux positifs (1.3)

Pr´ecision = vrais positifs

vrais positifs + faux positifs (1.4)

1.2.2.3 Caract´eristiques extraites

L’extraction des caract´eristiques du volume d’int´erˆet (VOI) n´ecessite que les valeurs d’intensit´e soient discr´etis´ees afin de regrouper les voxels ayant des intensit´es similaires, de faciliter le calcul des matrices et de r´eduire l’impact du bruit pr´esent dans les images. Cette discr´etisation peut ˆetre effectu´ee selon 2 m´ethodes : relative ou absolue. Pour la m´ethode relative, la discr´etisation est effectu´ee selon un nombre de niveaux (appel´es bins) fix´e entre le minimum et le maximum des intensit´es mesur´ees dans le volume d’int´erˆet (´equations 1.5 et 1.6). Suivant les auteurs, une de ces 2 ´equations est utilis´ee.

DR1 = round(DI(x) − Imin

Imax− Imin) (1.5)

D ´etant le nombre de niveaux de gris (ou bins), I(x) correspond `a l’intensit´e d’origine du voxel x (avant la discr´etisation), Imin et Imaxrepr´esentent respectivement les valeurs

minimale et maximale de l’intensit´e dans le volume concern´e.

DR2 = round(D I(x) − Imin

(24)

Pour la m´ethode absolue, la discr´etisation est effectu´ee selon une largeur de niveau fix´ee entre des bornes d’intensit´e fix´ees (´equation 1.7).

DA= round(DI(x) − a

b− a ) (1.7)

a et b ´etant les valeurs minimale et maximale d’intensit´e utilis´ees comme bornes. Bien que ces 2 m´ethodes soient les plus utilis´ees, il est possible de trouver d’autres m´ethodes dans la litt´erature, comme celle de regroupement de Max-Lloyd ou d’´egalisation d’histogramme.

Les caract´eristiques ensuite extraites sont de premier ou de second ordre voire d’ordre plus grand. Les caract´eristiques de premier ordre d´ecrivent la distribution des valeurs des voxels de mani`ere individuelle, sans prendre en compte leurs relations spatiales et sont d´eriv´ees d’histogrammes. Ainsi, diff´erentes configurations spatiales de niveaux de gris peuvent avoir le mˆeme histogramme et donc ˆetre caract´eris´ees par une mˆeme valeur de caract´eristique bien qu’elles soient diff´erentes.

Les caract´eristiques de second ordre, ´egalement appel´ees caract´eristiques de ”texture”, d´ecrivent les relations spatiales entre les voxels qui ont des valeurs de contraste similaires ou h´et´erog`enes. Pour extraire ces caract´eristiques, 4 matrices sont g´en´eralement calcul´ees :

- la matrice de co-occurrence (GLCM : Gray Level Co-occurrence Matrix) qui repr´esente la probabilit´e d’observer un couple de valeurs dans des voxels `a une distance donn´ee, ainsi que dans une direction donn´ee.

- la matrice de longueur des s´eries homog`enes (GLRLM : Gray Level Run-Length Matrix) qui mesure le nombre de voxels cons´ecutifs qui ont la mˆeme valeur et qui sont align´es dans une direction donn´ee pour chaque valeur d’intensit´e.

- la matrice des tailles de zones homog`enes (GLSZM : Gray Level Size-Zone Matrix) qui mesure pour chaque valeur d’intensit´e le nombre de voxels voisins.

- la matrice de diff´erence des niveaux de gris (NGDLM : Neighborhood Gray-Level Difference Matrix) qui mesure la diff´erence des intensit´es entre des voxels voisins. Pour les caract´eristiques d’ordre plus grand, l’image doit ˆetre filtr´ee afin d’extraire des caract´eristiques de motifs r´ep´et´es ou non. Cela peut ˆetre par exemple effectu´e par analyse fractale en imposant un motif dans l’image puis en calculant le nombre de grille d’´el´ements qui contiennent des voxels d’une certaine valeur ou encore avec des filtres passe bande Gaussiens pour extraire des zones de texture graduellement plus rugueuses. En fonction du programme utilis´e, une mˆeme caract´eristique peut ˆetre calcul´ee de mani`ere diff´erente ce qui complique la comparaison de 2 ´etudes si elles n’ont pas ´et´e men´ees en utilisant les mˆemes formules pour calculer les caract´eristiques. Ce manque de reproductibilit´e est un des challenges majeurs dans ce domaine de recherche. Afin de rem´edier `a ce probl`eme, une collaboration internationale (Image biomarker standardisation initiative en anglais, IBSI) a vu le jour et fournit une

nomenclature et une d´efinition pour chaque caract´eristique radiomique

([Zwanenburg et al., 2020]). Les logiciels qui respectent ces nomenclatures et d´efinitions mentionnent g´en´eralement leur conformit´e (i.e Pyradiomics, LIFEx).

(25)

Dans notre cas, les caract´eristiques sont extraites avec LIFEx [Nioche et al., 2018] et une liste de ces caract´eristiques est fournie dans l’annexe 1.

1.2.2.4 Normalisation des caract´eristiques

Les valeurs de caract´eristiques obtenues peuvent ˆetre homog´en´eis´ees au sein du jeu de donn´ee (JDD) qui sera utilis´e pour d´evelopper le mod`ele. Il y a plusieurs m´ethodes possibles mais leur but commun est de comparer des caract´eristiques qui ont des gammes de valeurs diff´erentes. En effet, certaines caract´eristiques auront des valeurs de l’ordre de 1 alors que d’autres auront des valeurs de l’ordre de 104. Or, de nombreuses m´ethodes

de classification calculent la distance Euclidienne entre 2 points. Ainsi pour ´eviter que cette distance soit plus influenc´ee par une caract´eristique que par une autre, les valeurs des caract´eristiques doivent ˆetre normalis´ees. Les 2 principales m´ethodes utilis´ees sont les suivantes :

- le redimensionnement (normalisation min-max) : il consiste `a changer l’´echelle de valeur prise par la caract´eristique (entre 0 et 1 ou -1 et 1 par exemple) en modifiant chaque valeur x de la caract´eristique grˆace `a la formule 1.8 :

x− min(x)

max(x) − min(x) (1.8)

min(x) ´etant la valeur minimale de la caract´eristique dans le JDD et max(x) ´etant sa valeur maximale.

- la standardisation avec un z-score : cette m´ethode est tr`es utilis´ee en AA et donne `a chaque caract´eristique des valeurs avec une valeur moyenne ´egale `a 0 et une variance ´egale `a 1. Elle consiste `a soustraire la valeur moyenne de toutes les valeurs prises par la caract´eristique `a la valeur de la caract´eristique pour l’´echantillon consid´er´e et `a diviser le r´esultat par l’´ecart-type de toutes les valeurs prises par la caract´eristique consid´er´ee (´equation 1.9).

x− moyenne

´ecart − type (1.9)

1.2.2.5 S´election de caract´eristiques

Le nombre de caract´eristiques obtenues pour chaque VOI ´etant ´elev´e (entre une dizaine et plusieurs centaines voire milliers), il est primordiale d’en s´electionner un nombre plus petit afin d’´eviter d’ˆetre confront´e au fl´eau de la dimension [Bellman, 2015]. Lorsque la dimension (le nombre de caract´eristique) augmente, le volume de l’espace des variables associ´e augmente ´egalement et cela de mani`ere exponentielle. Ainsi, les donn´ees deviennent tr`es dispers´ees dans cet espace et il n’est pas possible d’obtenir des r´esultats statistiquement fiables. En effet, puisque les donn´ees sont clairsem´ees, il est plus difficile de trouver les ´echantillons qui ont des propri´et´es similaires pour en faire des groupes, comme le font les algorithmes d’AA. Cela a pour cons´equence le sur-apprentissage, c’est `a dire que le mod`ele d´evelopp´e est

(26)

bas´e sur plus de caract´eristiques que ne peuvent le justifier les donn´ees. Le sur-apprentissage entraine une forte chute des performances lorsque le mod`ele est appliqu´e sur d’autres donn´ees car le mod`ele n’est repr´esentatif que des donn´ees qui ont servi `a le d´evelopper.

Diff´erentes approches existent pour s´electionner les variables :

- l’approche par filtrage : les variables sont s´electionn´ees ind´ependamment de la m´ethode d’AA ensuite utilis´ee, sur leur pertinence en fonction d’un crit`ere choisi. Ce crit`ere peut ˆetre la redondance (en ne gardant que les caract´eristiques faiblement corr´el´ees), la robustesse des caract´eristiques en fonction des conditions exp´erimentales (robustesse `a la segmentation), la diff´erence statistique des valeurs de la caract´eristique entre les classes `a diff´erencier (test t, m´ethode de contraction des coefficients de r´egression, Least Absolute Shrinkage and Selection Operator en anglais (LASSO) ou forˆets al´eatoires, Random Forest en anglais (RF),..).

- l’approche wrapper : contrairement `a l’approche pr´ec´edente, la pertinence de chaque caract´eristique est ´evalu´ee en fonction d’une m´ethode d’AA qui peut ˆetre celle ensuite utilis´ee, ou non (l’´elimination r´ecursive de caract´eristiques Recursive Feature Elimination en anglais, RFE par exemple).

- l’approche int´egr´ee : la s´election des caract´eristiques et la m´ethode d’AA sont fusionn´ees en un unique probl`eme math´ematique (LASSO, RF par exemple).

De nombreuses m´ethodes existent pour chacune de ces approches pour r´eduire la dimension des donn´ees mais seules celles utilis´ees dans nos ´etudes sont r´epertori´ees ici : - le test t de Student : cette m´ethode se base sur la comparaison des moyennes de la caract´eristique dans chacun des groupes afin de savoir si elles sont significativement diff´erentes. Consid´erons deux hypoth`eses, H0 (hypoth`ese nulle qui est celle que l’on veut tester) et H1 (hypoth`ese alternative). L’hypoth`ese nulle est que les ´echantillons ont des valeurs pour la caract´eristique consid´er´ee qui sont identiques. Ce test est associ´e `a une valeur de p qui est la probabilit´e de rejeter l’hypoth`ese H0 alors que celle-ci est vraie. Il faut donc choisir un seuil sur cette valeur de p pour statuer sur la diff´erence (ou non) des 2 ´echantillons qui repr´esente le risque de se tromper que l’on accepte. Le seuil de la valeur de p g´en´eralement utilis´e est 0.05, c’est `a dire que nous acceptons de consid´erer qu’il y a une diff´erence entre les 2 ´echantillons alors que ce n’est pas le cas pour au maximum 5% des cas.

Dans certains de nos travaux, cette m´ethode est utilis´ee en tant qu’approche par filtrage : ce test est effectu´e pour chacune des caract´eristiques afin de d´eterminer si les valeurs d’un groupe de patients sont diff´erentes de celles d’un autre groupe de patients et les caract´eristiques s´electionn´ees sont celles conduisant aux valeurs de p les plus faibles.

- l’analyse ROC (Receiver Operating Characteristics), appel´e ROCf r par la suite :

cette m´ethode prend en compte la variabilit´e des performances de classification en fonction de la valeur du seuil de d´ecision. Ainsi, pour chaque caract´eristique, diff´erentes valeurs de seuils sont test´ees afin de classer les patients et les performances de classification (sp´ecificit´e et sensibilit´e) associ´ees `a chacun de ces seuils sont utilis´ees afin de construire une courbe ROC comme sur la figure 1.5. Cette courbe passe par les

(27)

points de coordonn´ees (0,0) et (1,1) et les capacit´es de classification de la caract´eristique sont mesur´ees par l’aire sous la courbe (Area under the curve en anglais, AUC). L’AUC identifie la probabilit´e de d´etecter le cas positif en pr´esence d’un cas positif et d’un cas n´egatif. Dans notre cas, nous l’utilisions comme approche de filtrage pour r´eduire le nombre de caract´eristiques, les m meilleures sont s´electionn´ees en choisissant le point de la courbe ROC qui maximise l’index de Youden (Youden Index en anglais, YI, qui est ´egal `a sp´ecificit´e - sensibilit´e - 1).

1-Specificité Sensibilité Seuil 1 Seuil 2 Seuil 3 0 1 1

Figure 1.5 – Illustration d’une courbe ROC.

- l’´elimination r´ecursive de caract´eristiques (Recursive Feature Elimination en anglais, RFE) [Guyon et al., 2002] est une m´ethode de type wrapper. Elle consiste `a d´evelopper un mod`ele de classification sur les N patients qui ont chacun un vecteur de P valeurs (P caract´eristiques) xj (j allant de 1 `a N) et auquel est associ´e un statut de

classification yj, afin d’obtenir les coefficients de chacune des caract´eristiques sous la

forme du vecteur de poids β. Pour classer les caract´eristiques, la caract´eristique dont le poids au carr´e est le plus faible est ´elimin´ee et la proc´edure est r´ep´et´ee jusqu’`a la d´etermination du sous-ensemble optimal (i.e qui conduit aux les meilleures performances avec la m´etrique choisie).

- l’analyse en composantes principales (Principal Component Analysis) (ACP) [Hotelling, 1933] : cette m´ethode n’est pas une m´ethode de s´election de caract´eristiques `a proprement parler puisqu’elle consiste `a analyser les P caract´eristiques afin d’en d´eriver P nouvelles non corr´el´ees entre elles appel´ees ”composantes principales” (CP) parmi lesquelles un nombre p>P sera gard´e pour d´ecrire les donn´ees dans un nouveau rep`ere. Cette approche repr´esente donc les variables Xk (= [x1,k,..., xj,k]) (k allant de 1

`a P et j allant de 1 `a N) dans un nouvel espace constitu´e de nouveaux axes ind´ependants les uns des autres et expliquant toute la variance des donn´ees.

Pour d´eterminer ces CPs, il faut calculer la matrice de covariance empirique des P caract´eristiques, appel´ee M. La diagonale de cette matrice correspond aux variances des caract´eristiques et ailleurs ce sont les covariances des paires de caract´eristiques comme l’illustre la matrice suivante :

(28)

M =      V ar(x1) Cov(x1, x2) ... Cov(x1, xP) Cov(x2, x1) V ar(x2) ... Cov(x2, xP) ... ... ... ... Cov(xP, x1) Cov(xP, x2) ... V ar(xP)     

Cette matrice carr´ee, sym´etrique et r´eelle est diagonalisable ce qui permet d’obtenir ses vecteurs propres Vk et valeurs propres lk tels que MVk=lk.Vk. Les vecteurs propres Vk

repr´esentent les coefficients associ´es `a chacune des P caract´eristiques pour chacune des P CPs et la valeur propre associ´ee lk repr´esente la variance de la CP consid´er´ee. Les CPs

sont ensuite tri´ees selon leur variance (de la plus forte `a la plus faible).

Le nombre de CP `a utiliser p (p<P) est ensuite choisi pour expliquer la variance utile en filtrant la variance li´ee `a du bruit ou signal parasite. Ainsi, les donn´ees contiendront toujours l’information pertinente des donn´ees initiales mais dans un espace r´eduit. Les donn´ees X sont projet´ees dans la nouvelle base constitu´ee par les p premi`eres CPs, au moyen de l’´equation 1.10 :

X0 = u.X (1.10)

avec X la matrice initiale (colonnes = P caract´eristiques et lignes = N ´echantillons), X’ la matrice dans le nouveau rep`ere et u la matrice qui repr´esente les coefficients des combinaisons lin´eaires pour les p CPs (colonnes = p CPs et lignes = coefficients des caract´eristiques 1 `a P).

1.2.2.6 M´ethodes de classification

Les caract´eristiques retenues peuvent ensuite ˆetre utilis´ees pour d´evelopper des mod`eles grˆace `a des m´ethodes d’AA dans le but de classer les l´esions. Ces derni`eres ann´ees, le domaine de l’IA a vu l’utilisation et le d´eveloppement de m´ethode d’AP fortement augmenter. La radiomique est ´egalement concern´ee par l’augmentation de l’utilisation de ce type de m´ethode et la diff´erence entre l’utilisation de l’AP et l’utilisation des autres m´ethodes moins complexes d’AA r´eside dans le fait que pour certaines m´ethodes d’AP, les ´etapes de segmentation du volume d’int´erˆet et d’extraction, de normalisation et de s´election des caract´eristiques sont effectu´ees implicitement et non manuellement. Dans la suite de nos travaux, seules les m´ethodes d’AA d´ecrites par la suite sont utilis´ees.

La premi`ere est la r´egression lin´eaire (rLin) [Schneider et al., 2010]. Cette m´ethode cherche `a ´etablir une relation lin´eaire entre la variable que l’on veut pr´edire, dite expliqu´ee, et les caract´eristiques `a disposition, appel´ees variables explicatives. L’´equation est de la forme suivante (´equation 1.11) :

z= β0+ β1.x1+ ... + βP.xP (1.11)

z ´etant le score obtenu et βk les coefficients de la r´egression associ´es `a chacune des P

caract´eristiques xP.

(29)

classe, ainsi il faut donc trouver un seuil sur ce score de r´egression pour ensuite classer les patients.

Nous avons aussi utilis´e la r´egression logistique (LR) [Cramer, 2002]. Elle vise `a construire un mod`ele qui explique une variable cible qualitative `a partir d’un ensemble de variables explicatives. Si nous voulons classer des patients selon deux types T0 et T1, nous devons pr´edire la probabilit´e qu’un patient ait une l´esion T1 proba(Y=T1). Pour cela, nous supposons qu’il existe une relation lin´eaires entre les P caract´eristiques xP

comme dans l’´equation 1.11 et que la loi de probabilit´e est mod´elis´ee `a partir d’une loi logistique. Nous avons ainsi (´equation 1.12) :

ln(proba(Y = T 1)

proba(Y = T 0)) = ln(

proba(Y = T 1)

1 − proba(Y = T1)) = β0+ β1.x1+ ... + βP.xP (1.12)

En transformant l’´equation 1.12, nous obtenons l’´equation 1.13 :

proba(Y = T 1) = exp(z)

1 + exp(z) (1.13)

Pour d´eterminer la classe de la l´esion, la r`egle est g´en´eralement d’utiliser un seuil de la probabilit´e `a 0.50, c’est-`a-dire :

proba(Y=T1) < 0.50 l´esion T0 proba(Y=T1) > 0.50 l´esion T1

Les coefficients sont trouv´es en maximisant la vraisemblance de l’´echantillon N appel´ee L. Pour une observation de l’´echantillon Yjcette vraisemblance est ´egale `a la probabilit´e :

proba(Yj=yj), yj ´etant le statut de l’observation (T0 ou T1). Ainsi, L est donn´e par la

formule 1.14 et puisque les observations sont ind´ependantes, nous obtenons la formule de l’´equation 1.15. L= N \ j=1 proba(Yj = yj) (1.14) L= N Y j=1 proba(Yj = yj) (1.15)

Pour trouver les coefficients, nous pouvons aussi appliquer une r´egularisation qui a pour but de limiter le surapprentissage et donc d’obtenir de meilleures performances sur de nouvelles donn´ees. Le terme de r´egularisation est ajout´e `a L et pour ´eviter de donner trop d’importance `a certains coefficients en leur assignant une petite valeur. Ce terme est d´efini comme le carr´e de la norme du vecteur des βk multipli´e par une constante de

r´egularisation λ comme indiqu´e par l’´equation 1.16.

λ.||β||22 = λ.

P

X

k=1

(30)

La r´egression lin´eaire et la r´egression logistique sont simples `a impl´ementer et sont souvent utilis´ees car elles sont simples `a interpr´eter.

La 3`eme m´ethode que nous avons ´etudi´ee est celle des s´eparateurs `a vastes marges [Boser et al., 1992], support vector machine en anglais (SVM) qui reposent sur deux principes. Le premier est qu’il existe une marge maximale pouvant ˆetre choisie comme fronti`ere de s´eparation entre les ´echantillons de classes diff´erentes. Deuxi`emement, lorsqu’il n’est pas possible de s´eparer lin´eairement les ´echantillons de 2 classes diff´erentes, l’espace de repr´esentation des donn´ees initiales est transform´e en un espace de plus grande dimension dans lequel il est plus probable de trouver une s´eparation lin´eaire.

Dans le cas d’un probl`eme lin´eairement s´eparable, le mod`ele se pr´esente sous la forme d’une combinaison lin´eaire des variables comme dans l’´equation 1.11 et l’´equation de l’hyperplan s’´ecrit de mani`ere analytique comme dans l’´equation 1.17

h(X) = β0+ XT.β (1.17)

X ´etant le vecteur de valeur des P caract´eristiques et β le vecteur des coefficients associ´es `a ces P caract´eristiques.

Le but est de trouver un hyperplan optimal h(X)=0 qui maximise la distance entre la fronti`ere de s´eparation et les points de chaque classe qui lui sont le plus proche. Pour cela, nous calculons la marge maximale δ comme dans l’´equation 1.18. Pour maximiser la marge, il faut minimiser la norme du vecteur des valeurs de coefficients ||β||.

δ= 2

||β|| (1.18)

Lorsque les classes ne sont pas s´eparables par un hyperplan lin´eaire, l’´equation 1.18 peut ˆetre g´en´eralis´ee en utilisant une fonction φ(X) pour projeter les ´echantillons dans un espace de dimension sup´erieure o`u la s´eparation lin´eaire est possible comme dans l’´equation 1.19.

h(x) = β0+ XT.φ(X) (1.19)

Une nouvelle projection est donc obtenue dans l’espace des caract´eristiques consid´er´ees, et s´epare les classes lin´eairement. Pour trouver les coefficients des caract´eristiques, la r´egularisation ajout´ee est la mˆeme que pour LR. Cette m´ethode moins simple que les 2 pr´ec´edentes facilite l’interpr´etation du mod`ele et est souvent utilis´e en pratique.

La derni`ere m´ethode de classification est compos´ee d’une approche int´egr´ee de s´election de caract´eristiques et d’une r´egression lin´eaire. C’est la m´ethode de contraction des coefficients de r´egression, Least Absolute Shrinkage and Selection Operator en anglais (LASSO), qui est bas´ee sur une analyse de r´egression qui effectue une s´election de variables et une r´egularisation L1. Cette r´egularisation conduit `a des coefficients associ´es aux caract´eristiques ´egaux `a 0 et donc d’en ´eliminer. Pour chacun des N ´echantillons, nous recherchons un vecteur de P caract´eristiques xj (j allant de 1 `a

(31)

N) ainsi qu’une pr´ediction yj. y= a0+ k X 1 (akxk) +  (1.20)

 ´etant le terme r´esumant l’information qui n’est pas capt´ee par les variables

pr´edictives xk (k allant de 1 `a P). Les coefficients βk sont trouv´es `a partir de

l’´echantillon `a disposition de taille N et sont ceux qui minimisent l’erreur quadratique moyenne (mean squared error en anglais MSE) de l’´equation 1.21.

min β01,...,βk 1 N N X j=1 (yj− (β0+ P X k=1 βk.xjk))2 (1.21)

avec la contrainte de l’´equation 1.22 :

P

X

k=1

|βk| ≤ λ (1.22)

λ´etant le param`etre qui d´etermine la r´egularisation `a appliquer.

1.2.2.7 D´eveloppement du mod`ele

Lorsque le mod`ele est d´evelopp´e sur le jeu de donn´ee (JDD), il n’est pas possible de savoir si ce mod`ele peut vraiment avoir de bonnes performances puisqu’elles ne sont test´ees que sur les donn´ees qui ont ´et´e utilis´ees pour concevoir le mod`ele. C’est pourquoi il est n´ecessaire de v´erifier les performances du mod`ele sur des donn´ees non utilis´ees pr´ec´edemment. Pour cela, diff´erentes techniques peuvent ˆetre mises en oeuvre et les 4 que nous utilisons dans nos travaux sont expliqu´ees ci-dessous.

La premi`ere est la s´eparation des donn´ees en 2 ensembles (hold out en anglais) : un d’apprentissage (TRS) et un de test (TES). Le mod`ele est d´evelopp´e et optimis´e sur TRS et il est ensuite ´evalu´e sur TES. L’avantage de cette m´ethode r´eside dans le fait que les performances sont ´evalu´ees dans des conditions plutˆot r´eelles, c’est-`a-dire sur des donn´ees qui n’ont pas servi au d´eveloppement du mod`ele. Elle est de plus peu coˆuteuse en temps de calcul. N´eanmoins, cela n´ecessite de s´eparer la cohorte en 2 ce qui r´eduit le nombre de cas et peut poser probl`eme si les cohortes sont de faible effectif. De plus, la variance des r´esultats peut ˆetre grande.

La deuxi`eme est la validation crois´ee tous sauf un (leave-one-out cross validation (LOOCV) en anglais) et consiste `a utiliser N-1 patients, N ´etant le nombre de patient dans le JDD, pour d´evelopper le mod`ele, puis le valider sur la n-i`eme observation. Cette op´eration est r´ep´et´ee N fois pour que tous les patients aient ´et´e utilis´es comme validation. Cette m´ethode utilise presque toute la cohorte donc de d´evelopper un mod`ele plus fiable que si une plus grosse partie de la cohorte ´etait enlev´ee. De plus, la variance des r´esultats est faible. Cependant, lorsque N est grand, cette m´ethode

(32)

devient coˆuteuse en temps de calcul.

La validation crois´ee stratifi´ee en K blocs (stratified K blocks cross-validation (SKFCV) en anglais) se situe entre les deux m´ethodes pr´ec´edentes. En effet, elle consiste `a s´eparer en K sous-ensembles les N patients tout en gardant les proportions des 2 groupes dans les ´echantillons. La m´ethode de s´eparation apprentissage/test est ensuite r´ep´et´ee K fois. A chaque fois, K-1 sous-ensembles sont utilis´es pour d´evelopper le mod`ele et celui restant est utilis´e pour le valider. Ensuite, la valeur moyenne des performances sur les ensembles de validation est calcul´ee sur les K ´echantillons. Puisque chaque patient sera dans l’ensemble de validation 1 fois et sera utilis´e pour d´evelopper le mod`ele K-1 fois, la s´eparation des sous-ensembles importe moins qu’avec la m´ethode de hold-out. Un autre avantage est que la variance des r´esultats est r´eduite lorsque K augmente. Cependant, puisque l’algorithme d’apprentissage doit ˆetre entrain´e K fois, il faut K fois plus de temps pour faire une ´evaluation des performances. La derni`ere m´ethode utilis´ee est celle de bootstrap. Il s’agit d’une m´ethode d’inf´erence statistique qui utilise la r´eplication multiple des donn´ees `a partir du JDD ´etudi´e en cr´eant des nouveaux ´echantillons par tirage avec remise. Dans notre cas, cette m´ethode a ´et´e utilis´ee en s´eparant le JDD en un TRS et un TES et en dupliquant certains patients du TRS dans ce mˆeme TRS pour obtenir le nombre initial de patients. Sa simplicit´e et la possibilit´e de v´erifier la stabilit´e des r´esultats sont des atouts. Toutefois, cette m´ethode peut ˆetre coˆuteuse en temps de calcul et sa simplicit´e apparente est bas´ee sur des hypoth`eses importantes (comme l’ind´ependance des ´echantillons) qui ne sont pas toujours v´erifi´ees.

L’article [Kohavi, 1995] compare l’utilisation du bootstrap, de la LOOCV et de la SKFCV pour d´evelopper un mod`ele en utilisant une m´ethode de bay´esien na¨ıf (naive bayesian en anglais, NB) sur 6 JDDs diff´erents. Chaque technique est r´ep´et´ee 50 fois. Les auteurs concluent que la m´ethode de bootstrap pr´esente une faible variance mais un tr`es grand biais et ils recommandent l’utilisation de la SKFCV `a 10 blocs. L’article [Dietterich, 1998] recense des questions qui concernent le choix de la m´ethode `a utiliser et des tests `a effectuer pour comparer diff´erentes m´ethodes d’AA suivant que le JDD est de grande ou petite taille. Dans le cas o`u celui-ci est de faible taille, il est l`a aussi recommand´e d’utiliser la SKFCV.

1.2.2.8 Validation du mod`ele

Enfin, lorsque le mod`ele a ´et´e d´evelopp´e et valid´e, il est n´ecessaire de tester sa robustesse et sa capacit´e `a ˆetre export´e en utilisant un jeu de donn´ee externe au processus pr´ec´edent, venant id´ealement d’un centre diff´erent de celui dont proviennent les donn´ees utilis´ees ou du moins, d’un imageur diff´erent. Cet ´etape rend n´ecessaire l’utilisation de m´ethodes d’harmonisation des donn´ees. En effet, les valeurs des caract´eristiques radiomiques d´ependent des propri´et´es de l’imageur utilis´es ([Galavis et al., 2010] et [Yan et al., 2015]). C’est pourquoi il est n´ecessaire d’appliquer une correction avant ou apr`es l’extraction de caract´eristiques. Pour les donn´ees provenant d’examens TEP/TDM, il est possible de normaliser les caract´eristiques

(33)

extraites en appliquant la m´ethode ComBat [Orlhac et al., 2019a] (TEP) et [Orlhac et al., 2019b] (TDM). Celle-ci r´ealigne les distributions de valeurs de chacune des caract´eristiques d’un centre sur celles d’un autre centre.

En IRM, il est aussi possible d’utiliser la m´ethode Combat sur les caract´eristiques extraites [Orlhac et al., 2020]. Il existe ´egalement des m´ethodes de normalisation des intensit´es pr´e-extraction comme la technique White-Strape [Shinohara et al., 2014]. Dans cette m´ethode, pour chaque image la moyenne et la variance des intensit´es sont calcul´ees dans une r´egion d’int´erˆet rep´er´ee sur l’histogramme des intensit´es pour ensuite normaliser les intensit´es en fonction de ces valeurs.

Enfin, lorsque le mod`ele a ´et´e valid´e, il est n´ecessaire de le diffuser pour que d’autres personnes puissent le tester sur leurs propres donn´ees. C’est seulement apr`es une validation externe que l’on peut esp´erer qu’un mod`ele ait un r´eel impact dans la recherche ou la pratique clinique.

1.3 Etat de l’art du d´eveloppement de mod`ele radiomique

Pour caract´eriser l’´etat actuel du d´eveloppement de mod`eles radiomiques, nous avons effectu´e une recherche sur Pubmed avec les mots cl´es suivants : (”radiomic” OR ”radiomics” OR ”texture” OR ”textural”) AND (”signature” OR ”model”) entre le 01/10/2019 et le 31/12/2019. Parmi les 336 r´esultats, 174 sont des articles concernant la radiomique pour des images m´edicales en canc´erologie. Puisque nous n’avons pas eu acc`es `a 29 d’entre eux, notre ´etude concerne les 145 articles restants. Les r´ef´erences de ces 145 articles sont disponibles dans l’annexe 2. Le processus de s´election des articles est r´ecapitul´e figure 1.6.

1.3.1 Cohortes

Parmi les 145 articles retenus, l’analyse des cohortes de patients fait ressortir beaucoup de diff´erences. En effet, les modalit´es d’imagerie utilis´ees, les localisations des tumeurs ´etudi´ees, le nombre de patients dans la cohorte, la variabilit´e des imageurs au sein d’une mˆeme ´etude ainsi que les techniques de d´eveloppement du mod`ele varient beaucoup d’un article `a l’autre comme nous l’exposons dans la suite.

Les modalit´es d’imagerie utilis´ees pour extraire des caract´eristiques suivant leur fr´equence sont les suivantes : l’IRM (74 articles - 51%), le TDM (42 articles - 29%), la TEP (10 articles 7%), l’´echographie (5 articles 3%) et la mammographie (2 articles -1%). Les 12 articles restants utilisent des caract´eristiques de 2 modalit´es : 9 (6%) articles pour TEP+TDM, 1 (1%) article pour TDM+IRM, 1 (1%) article pour TEP+IRM et 1 (1%) article pour l’´echographie+IRM. La place de l’IRM est devenue pr´epond´erante, bien que la TDM sur laquelle portaient les premi`eres publications garde une place importante.

(34)

Recherche pubmed : ("radiomic"OR "radiomics" OR "texture" OR "textural") AND ("signature" OR

"model") entre le 01/10/19 et le 31/12/19

336 articles

174 articles

145 articles

162 articles ne concernant pas l’imagerie médicale et la

cancérologie

29 articles non accessibles

38 articles

107 articles n’appliquant pas le principe

“apprentissage+validation+test”

12 articles

26 articles n’ont pas un set de test provenant d’un autre

imageur/centre

3 articles

2 articles

9 articles ne normalisent pas les images ou les paramètres pour

corriger l’effet centre

1 article ne donne pas les paramètres et les coefficients du

modèle

Figure 1.6 – R´ecapitulatif du processus de s´election d’articles.

Le tableau 1.2 pr´esente le nombre d’articles en fonction des localisations. Les 3 organes les plus repr´esent´es sont le cerveau (28 articles), les poumons (21 articles) et les seins (13). Le cancer du poumon et du sein ´etant les cancers les plus fr´equents (2.09 millions de cas dans le monde chacun en 2018 d’apr`es l’Organisation Mondiale de la Sant´e), ils sont au centre de nombreuses ´etudes ayant pour but de mieux les diagnostiquer/prendre en charge. Concernant le cerveau, ce type de tumeurs est beaucoup moins fr´equent (environ 3000 personnes par an en France) mais certains types ont des prognostics tr`es mauvais, comme le glioblastome multiforme qui a un taux de survie `a 5 ans de seulement 4-5% ([Batash et al., 2017]), il est n´ecessaire de d´evelopper des outils qui pourraient ˆetre utiles aux oncologues pour prendre en charge ces pathologies. Ce besoin, coupl´e au fait que l’IRM qui est n´ecessaire pour imager

Figure

Figure 1.1 – Illustration de l’h´et´erog´en´eit´e tumorale par [Gerlinger et al., 2012] pour une tumeur r´enale
Figure 1.2 – Illustration de la modification des propri´et´es d’une tumeur au cours d’un traitement
Figure 1.4 – Processus pour le d´eveloppement de mod`ele radiomique par : (a) apprentissage non profond avec s´election de variables par approche filtrage (b) apprentissage non profond avec s´election de variables par approche ”wrapper”
Figure 1.7 – a) Histogramme des effectifs de patients dans la cohorte globale.
+7

Références

Documents relatifs

Le paradigme de la programmation orient´ e classe est un sous paradigme de programmation orient´ e objet qui indique qu’un objet est cr´ e´ e ` a partir d’une classe

D´ eterminer le polynˆ ome caract´ eristique et les valeurs propres de A.. D´ eterminer le polynˆ ome caract´ eristique et les valeurs propres

Parmi les trois formules suivantes, d´ eterminer toutes celles que l’on peut ´ ecrire dans la cellule G4 et qui permettent de connaˆıtre par recopie vers le bas les salaires cumul´

S’il existait un nombre pair 2ng contredisant la conjecture de Goldbach, ce nombre pair “partagerait” chacune de ses classes d’´ equivalence selon des modules premiers inf´

Pour la surface de denture du pignon, les corrections en longueur, en hauteur et suivant les deux directions sont consid´ er´ ees.. Dans la r´ ealit´ e, un grand nombre de

Pour cela, ils ont utilis´ e la m´ ethode des algorithmes g´ en´ etiques qui leur ont permis de trouver les valeurs optimales des pa- ram` etres de construction du v´ ehicule

D´ eduire de la question pr´ ec´ edente l’estimateur de θ par la m´ ethode du maximum de vraisemblance et ´ etudier ses propri´ et´ es.. Exhiber une statistique exhaustive

N est une suite de r´ eels strictement positifs qui tend vers 0, alors elle est d´ ecroissante ` a partir d’un